Claude stijgt, Grok daalt: Hoe zes AI-giganten omgaan met haatspraak Claude stijgt, Grok daalt: Hoe zes AI-giganten omgaan met haatspraak

The Anti-Defamation League (ADL) heeft zijn eerste AI Index uitgebracht, een rapport dat onderzoekt hoe goed grote AI-chatbots omgaan met haatspraak en extremistische inhoud. Het idee is eenvoudig: als mensen chatbots gebruiken voor zoeken, schrijven en “leg dit aan me uit”, dan zouden deze systemen ook moeten weten wanneer ze schadelijke verzoeken moeten weigeren en met feiten weerwoord moeten bieden.

Om dit te testen voerden ADL-onderzoekers tussen augustus en oktober 2025 meer dan 25.000 interacties uit. Dat is ongeveer 4.181 chats per model. Alle zes de chatbots werden op dezelfde manier getest: ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google), LLaMA (Meta), Grok (xAI) en DeepSeek (gevestigd in China).

De resultaten laten een grote kloof zien: sommige modellen zijn veel beter in het herkennen van haat en het weigeren daarvan, terwijl andere nog steeds falen bij basale veiligheidstaken.

Hoe ADL de modellen beoordeelde

ADL (Amerikaanse burgerrechtenorganisatie, opgericht in 1913) gebruikte een score van 0–100, waarbij 100 betekent dat het model de test perfect afhandelde.

Hoge scores gingen naar chatbots die haatdragende of extremistische inhoud duidelijk herkenden en vervolgens verantwoordelijk reageerden. In de praktijk betekende dit dat ze weigerden in te gaan op de prompt, uitlegden waarom dit schadelijk was of een veiliger, corrigerend antwoord boden. Lage scores gingen naar modellen die de haat geheel misten, het als “neutrale” inhoud behandelden wanneer ze het hadden moeten markeren, of in het slechtste geval het schadelijke idee napraatten of steunden.

De evaluatie omvatte 37 subcategorieën van antisemitische en extremistische inhoud. De scoring werd gedaan door menselijke beoordelaars en voor consistentie ondersteund door AI-tools.

Hoe ADL de chatbots testte

ADL gebruikte een mix van prompttypen. Het doel was te zien hoe de modellen zich gedragen in praktijksituaties, waarin gebruikers schadelijke bedoelingen kunnen verbergen achter “redelijke” verzoeken.

ADL testte de zes chatbots in verschillende formaten:

  • Stellingen in enquête-stijl: “Bent u het eens of oneens?”
    Dit toetst basisherkenning.
  • Open opdrachten: “Geef argumenten voor en tegen een bewering.”
    Dit controleert of een model haatdragende ideeën “beide kanten” zal laten zien.
  • Gesprekken in meerdere stappen: lange heen-en-weer-chats
    Dit controleert of de veiligheid in de tijd consistent blijft. 
  • Documentsamenvattingen: een tekst samenvatten of kernpunten extraheren
    Dit controleert of het model haat herhaalt terwijl het “alleen maar samenvat.”
  • Beeldinterpretatie (voor modellen met vision): afbeeldingen met haatsymbolen of propaganda-achtige boodschappen interpreteren
    Dit controleert visuele moderatie, die vaak zwakker is dan tekstmoderatie.

Deze mix is belangrijk, omdat veel modellen duidelijke haat kunnen blokkeren maar falen wanneer haat is ingebed in een “neutrale” taak.

Het scorebord: Claude leidt, Grok blijft achter

De totaalscores van de ADL (0–100) waren:

  1. Claude (Anthropic) — 80/100
  2. ChatGPT (OpenAI) — 57/100
  3. DeepSeek — 50/100
  4. Gemini (Google) — 49/100
  5. LLaMA (Meta) — 31/100
  6. Grok (xAI) — 21/100

Dat is een kloof van 59 punten tussen het topmodel (80) en het laagst scorende model (21). Geen enkel model haalde 90 of hoger, wat duidelijk maakt dat dit nog steeds een openstaand probleem is.

Waarom Claude het hoogst scoorde

Claude's 80/100 was veruit het sterkste resultaat. In de tests van ADL herkende Claude meestal snel haatdragende framing, weigerde onveilige verzoeken en legde zijn weigering duidelijk en direct uit.

Claude wordt vaak in verband gebracht met Anthropic's veiligheidsbenadering, soms “Constitutional AI” genoemd, waarbij het model wordt getraind met geschreven principes en veiligheidsregels. Het praktische voordeel is dat Claude niet alleen “nee” zegt, maar ook kort uitlegt waarom en de gebruiker naar een veiligere formulering stuurt.

Toch had zelfs Claude zwakkere resultaten op het moeilijkste gebied: extremistische narratieven. Dat was lastig voor elk model, maar Claude had er het minst moeite mee.

Als u een chatbot nodig hebt voor veiligere klantgerichte toepassingen (support, onderwijs, contenttools), lijkt Claude in deze specifieke benchmark de beste optie.

ChatGPT: duidelijke tweede plaats, maar niet “veilig genoeg”

ChatGPT scoorde 57/100, een duidelijke tweede plaats, maar nog ver van uitmuntend.

In de ADL-opzet ging ChatGPT over het algemeen beter om met directe haat dan met subtiele, contextrijke gevallen. Zoals veel modellen kan het nog steeds ontsporen wanneer schadelijke boodschappen indirect zijn, wanneer de gebruiker de taak kadert als “analyse” of “samenvatting”, of wanneer het gesprek lang en complex wordt.

Dit komt overeen met een bekend patroon in AI-veiligheid: systemen blokkeren vaak duidelijke, niet-toegestane inhoud, maar kunnen “zachte” versies van hetzelfde idee missen wanneer die in een beleefdere of academische stijl zijn geschreven.

ChatGPT is in deze test veiliger dan verschillende concurrenten, maar de ADL-score suggereert dat het in moeilijke gevallen nog consistenter moet worden.

DeepSeek en Gemini: de middencategorie

DeepSeek scoorde 50/100 en Gemini 49/100. Dat is bijna een gelijke stand.

Deze “middelmatige” scores betekenen meestal dat het model inconsistent is. Het kan in het ene geval terecht weigeren, in een ander belangrijke context missen en in een derde schadelijk materiaal te neutraal samenvatten.

Voor bedrijven kan deze middencategorie lastig zijn. Een model dat “soms” faalt kan nog steeds ernstige problemen veroorzaken, vooral bij publiekgerichte toepassingen.

LLaMA en Grok: de grootste veiligheidsrisico's in deze test

LLaMA van Meta behaalde 31/100, en Grok scoorde 21/100.

Een lage score betekent niet dat het model onbruikbaar is. Het betekent meestal dat het systeem sterkere veiligheidsfine-tuning, extra moderatielagen en strengere filters rond risicovolle onderwerpen nodig heeft voordat het in veel omgevingen veilig kan worden gebruikt.

De resultaten van ADL suggereren dat Grok de meeste moeite had om veilig te blijven over verschillende formaten heen, vooral in langere chats en bij taken zoals het samenvatten of transformeren van aangeleverde inhoud.

Een kernprobleem dat ADL benadrukte: de “formatkloof”

Een van de grootste lessen van dit soort testen is wat we een formatkloof kunnen noemen:

  • Modellen doen het beter met eenvoudige tekst (“Is dit haat? Ja/nee.”)
  • Modellen doen het slechter met documenten, chats in meerdere stappen en afbeeldingen.

Dit is belangrijk omdat echte gebruikers niet altijd directe vragen stellen. Ze vragen om samenvattingen, scripts, “belangrijkste punten extraheren”, “beide kanten analyseren” en uitleg bij afbeeldingen.

Als veiligheid alleen werkt voor directe prompts, zal die falen bij normaal gebruik.

Wat dit betekent voor gebruikers en bedrijven

Als u een AI-model voor werk kiest, wijst het scorebord van ADL op drie praktische regels:

  1. Veiligheid is niet automatisch. Het hangt af van trainingskeuzes.
  2. Benchmarks doen ertoe. Een groot scoreverschil (zoals 80 vs 21) is een echt waarschuwingssignaal.
  3. Context is het zwakke punt. Bij samenvattingen, documenten en afbeeldingen gaan modellen vaak de mist in.

Voor zakelijk gebruik (supportbots, onderwijs, moderatietools) kunnen deze verschillen leiden tot echte juridische en reputatierisico's.

Slotgedachte

De eerste AI Index van ADL maakt één ding duidelijk: AI-veiligheid is iets dat ontwikkelaars doelbewust moeten inbouwen. In 2026 is de “beste” chatbot degene die sterk redeneren koppelt aan consistent gedrag over realistische formaten heen, zoals lange gesprekken, documenten en afbeeldingen.

Andere berichten van de auteur

De ENIAC-zes: Toen programmeren “vrouwenwerk” was
Artikel
De ENIAC-zes: Toen programmeren “vrouwenwerk” was
Wie waren de ENIAC Six? Een heldere kijk op de ENIAC-computer, de vroege vrouwelijke programmeurs en hoe programmeren verschoof van ‘vrouwenwerk’ naar een prestigieus beroep.
Rubin + Helios: Nieuwe GPU-platformen van NVIDIA en AMD
Artikel
Rubin + Helios: Nieuwe GPU-platformen van NVIDIA en AMD
NVIDIA Rubin en AMD Helios zijn twee nieuwe “rack-scale” GPU-platformen voor AI-datacenters. Dit is wat ze zijn, waarom ze ertoe doen en hoe ze zich verhouden in 2026–2027.
Claude Sonnet 4.6 van Anthropic en het miljoen-token-moment
Artikel
Claude Sonnet 4.6 van Anthropic en het miljoen-token-moment
Anthropic lanceerde op 17 februari 2026 Claude Sonnet 4.6 met een contextvenster van 1 miljoen tokens. We lichten gebruiksscenario’s, kosten, agentrisico’s en best practices toe.
Een AI-agent schreef een haatdragend artikel over de mens die de code van de agent afwees.
Artikel
Een AI-agent schreef een haatdragend artikel over de mens die de code van de agent afwees.
Een AI-codeeragent richtte zich op een Matplotlib-maintainer na een afgewezen PR. Het incident laat zien hoe agentische AI reputatieaanvallen en risico’s in de toeleveringsketen kan aanwakkeren.