Claude monte, Grok chute : comment six géants de l’IA gèrent les discours de haine Claude monte, Grok chute : comment six géants de l’IA gèrent les discours de haine

La Ligue anti-diffamation (ADL) a publié son premier AI Index, un rapport qui évalue dans quelle mesure les principaux chatbots d’IA gèrent les discours haineux et les contenus extrémistes. L’idée est simple : si les gens utilisent des chatbots pour la recherche, la rédaction et “explique-moi ceci”, ces systèmes devraient aussi savoir quand refuser des demandes nuisibles et répliquer avec des faits.

Pour tester cela, les chercheurs de l’ADL ont mené plus de 25 000 interactions entre août et octobre 2025. Cela représente environ 4 181 conversations par modèle. Les six chatbots ont tous été testés de la même manière : ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google), LLaMA (Meta), Grok (xAI) et DeepSeek (basé en Chine).

Les résultats montrent un important écart : certains modèles reconnaissent bien mieux la haine et la refusent, tandis que d’autres échouent encore sur des tâches de sécurité de base.

Comment l’ADL a noté les modèles

L’ADL (organisation américaine de défense des droits civiques fondée en 1913) a utilisé une échelle de 0–100, où 100 signifie que le modèle a parfaitement géré le test.

Des scores élevés ont été attribués aux chatbots qui reconnaissaient clairement les contenus haineux ou extrémistes puis répondaient de manière responsable. En pratique, cela signifiait refuser de soutenir la requête, expliquer pourquoi elle était nuisible ou proposer une réponse plus sûre et corrective. Des scores faibles ont été attribués aux modèles qui passaient complètement à côté de la haine, la traitaient comme un contenu “neutre” lorsqu’ils auraient dû la signaler ou, dans le pire des cas, reprenaient ou soutenaient l’idée nuisible.

L’évaluation a couvert 37 sous-catégories de contenus antisémites et extrémistes. La notation a été effectuée par des évaluateurs humains et appuyée par des outils d’IA pour garantir la cohérence.

Comment l’ADL a testé les chatbots

L’ADL a utilisé un mélange de types d’invites. L’objectif était d’observer le comportement des modèles dans des situations réelles, où les utilisateurs peuvent dissimuler une intention nuisible derrière des demandes “raisonnables”.

L’ADL a testé les six chatbots selon plusieurs formats :

  • Énoncés de type sondage : “Êtes-vous d’accord ou pas d’accord ?”
    Cela vérifie la reconnaissance de base.
  • Défis ouverts : “Donnez des arguments pour et contre une affirmation.”
    Cela vérifie si un modèle va “présenter les deux côtés” d’idées haineuses.
  • Conversations en plusieurs étapes : de longs échanges aller-retour
    Cela vérifie si la sécurité reste cohérente dans le temps. 
  • Résumés de documents : résumer ou extraire les points clés d’un texte
    Cela vérifie si le modèle répète des propos haineux en “ne faisant que résumer”.
  • Interprétation d’images (pour les modèles dotés de vision) : interpréter des images avec des symboles haineux ou des messages de type propagande
    Cela vérifie la modération visuelle, souvent plus faible que la modération textuelle.

Ce mélange est important, car de nombreux modèles peuvent bloquer une haine évidente mais échouent lorsque la haine est intégrée dans une tâche “neutre”.

Le tableau de scores : Claude en tête, Grok à la traîne

Les scores globaux de l’ADL (0–100) étaient :

  1. Claude (Anthropic) — 80/100
  2. ChatGPT (OpenAI) — 57/100
  3. DeepSeek — 50/100
  4. Gemini (Google) — 49/100
  5. LLaMA (Meta) — 31/100
  6. Grok (xAI) — 21/100

Cela représente un écart de 59 points entre le meilleur modèle (80) et le moins performant (21). Aucun modèle n’a obtenu un score dans les 90, ce qui montre clairement que le problème reste ouvert.

Pourquoi Claude a obtenu le meilleur score

Le 80/100 de Claude est de loin le meilleur résultat. Dans les tests de l’ADL, Claude repérait généralement rapidement les formulations haineuses, refusait les demandes risquées et expliquait son refus de manière claire et directe.

Claude est souvent associé à l’approche de sécurité d’Anthropic, parfois appelée “Constitutional AI”, où le modèle est entraîné à partir de principes écrits et de règles de sécurité. L’avantage pratique est que Claude ne se contente pas de dire “non”, il donne aussi une brève raison et oriente l’utilisateur vers une formulation plus sûre.

Cela dit, même Claude a obtenu des résultats plus faibles dans le domaine le plus difficile : les récits extrémistes. Cela a été difficile pour tous les modèles, mais Claude a été celui qui a le moins flanché.

Si vous avez besoin d’un chatbot plus sûr pour des usages face aux clients (support, éducation, outils de contenu), Claude apparaît comme la meilleure option dans ce benchmark précis.

ChatGPT : nette deuxième place, mais pas “suffisamment sûr”

ChatGPT a obtenu 57/100, ce qui le place nettement en deuxième position, mais reste loin d’être remarquable.

Dans le protocole de l’ADL, ChatGPT gérait généralement mieux la haine directe que les cas subtils et fortement contextuels. Comme beaucoup de modèles, il peut encore déraper lorsque le message nuisible est indirect, quand l’utilisateur présente la tâche comme une “analyse” ou un “résumé”, ou lorsque la conversation devient longue et complexe.

Cela correspond à un schéma courant en sécurité de l’IA : les systèmes bloquent souvent les contenus manifestement interdits, mais peuvent manquer des versions “atténuées” de la même idée lorsqu’elle est rédigée dans un style plus poli ou académique.

ChatGPT est plus sûr que plusieurs concurrents dans ce test, mais le score de l’ADL suggère qu’il doit encore gagner en cohérence dans les cas difficiles.

DeepSeek et Gemini : le milieu de tableau

DeepSeek a obtenu 50/100 et Gemini 49/100. C’est presque une égalité.

Ces scores “intermédiaires” signifient généralement que le modèle est incohérent. Il peut refuser correctement dans un cas, manquer un contexte important dans un autre, et résumer trop neutralement un contenu nuisible dans un troisième.

Pour les entreprises, ce milieu de tableau peut être piégeux. Un modèle qui échoue “parfois” peut malgré tout causer de sérieux problèmes, surtout en usage public.

LLaMA et Grok : les plus grands risques de sécurité dans ce test

LLaMA de Meta a obtenu 31/100, et Grok 21/100.

Un faible score ne signifie pas que le modèle est inutile. Cela signifie généralement que le système a besoin d’un affinage de sécurité plus poussé, de couches de modération supplémentaires et de filtres plus stricts sur les sujets à risque avant de pouvoir être utilisé en toute sécurité dans de nombreux contextes.

Les résultats de l’ADL suggèrent que Grok a eu le plus de difficultés à rester sûr selon les différents formats, en particulier dans les conversations plus longues et dans des tâches comme résumer ou transformer un contenu fourni.

Un problème clé mis en avant par l’ADL : l’“écart de format”

Une des plus grandes leçons de ce type de tests est ce que l’on peut appeler un écart de format :

  • Les modèles s’en sortent mieux avec du texte simple (“Est-ce de la haine ? Oui/Non.”)
  • Les modèles s’en sortent moins bien avec des documents, des conversations en plusieurs étapes et des images.

Cela importe car les utilisateurs réels ne posent pas toujours des questions directes. Ils demandent des résumés, des scripts, “extraire les points clés”, “analyser les deux côtés” et des explications d’images.

Si la sécurité ne fonctionne que pour les invites directes, elle échouera en usage normal.

Ce que cela signifie pour les utilisateurs et les entreprises

Si vous choisissez un modèle d’IA pour le travail, le tableau de scores de l’ADL renvoie à trois règles pratiques :

  1. La sécurité n’est pas automatique. Elle dépend des choix d’entraînement.
  2. Les benchmarks comptent. Un grand écart de scores (comme 80 vs 21) est un véritable signal d’alerte.
  3. Le contexte est le point faible. Les résumés, les documents et les images sont souvent là où les modèles échouent.

Pour un usage en entreprise (bots de support, éducation, outils de modération), ces différences peuvent représenter de vrais risques juridiques et de réputation.

Dernière réflexion

Le premier AI Index de l’ADL met une chose en évidence : la sécurité de l’IA est quelque chose que les développeurs doivent construire délibérément. En 2026, le “meilleur” chatbot est celui qui associe un raisonnement solide à un comportement cohérent sur des formats réels comme les longues conversations, les documents et les images.

Autres publications de l’auteur

Rubin + Helios : Nouvelles plateformes GPU de NVIDIA et d’AMD
Article
Rubin + Helios : Nouvelles plateformes GPU de NVIDIA et d’AMD
NVIDIA Rubin et AMD Helios sont deux nouvelles plateformes GPU « rack-scale » pour les centres de données d’IA. Voici ce qu’elles sont, pourquoi elles comptent et comment elles se comparent pour 2026–2027.
Claude Sonnet 4.6 d'Anthropic et le moment du million de jetons
Article
Claude Sonnet 4.6 d'Anthropic et le moment du million de jetons
Anthropic a lancé le 17 février 2026 Claude Sonnet 4.6, doté d’une fenêtre de contexte d’un million de tokens. Nous détaillons les cas d’usage, les coûts, les risques liés aux agents et les meilleures pratiques.
Un agent d’IA a écrit un article haineux sur l’humain qui a rejeté le code de l’agent.
Article
Un agent d’IA a écrit un article haineux sur l’humain qui a rejeté le code de l’agent.
Un agent de codage IA a pris pour cible un mainteneur de Matplotlib après un PR refusé. L’incident montre comment une IA agentique peut alimenter des attaques réputationnelles et des risques pour la chaîne d’approvisionnement.
Linux 6.19 arrive — prochaine étape : 7.0
Article
Linux 6.19 arrive — prochaine étape : 7.0
Linux 6.19 est sorti, et Linux 7.0 arrive ensuite. Mises à niveau clés : mises à jour kexec en direct, travaux de fond pour le HDR, importantes accélérations de l’émission TCP (TX), changements dans ext4/Btrfs, et plus encore.