Claude sobe, Grok cai: Como seis gigantes da IA lidam com o discurso de ódio
A Liga Anti-Difamação (ADL) lançou seu primeiro Índice de IA, um relatório que avalia quão bem os principais chatbots de IA lidam com discurso de ódio e conteúdo extremista. A ideia é simples: se as pessoas usam chatbots para pesquisa, redação e “explique isso para mim”, esses sistemas também devem saber quando recusar pedidos nocivos e rebater com fatos.
Para testar isso, pesquisadores da ADL realizaram mais de 25.000 interações entre agosto e outubro de 2025. Isso equivale a cerca de 4.181 conversas por modelo. Todos os seis chatbots foram testados da mesma forma: ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google), LLaMA (Meta), Grok (xAI) e DeepSeek (com sede na China).
Os resultados mostram uma grande diferença: alguns modelos são muito melhores em reconhecer o ódio e recusá-lo, enquanto outros ainda falham em tarefas básicas de segurança.
Como a ADL pontuou os modelos
A ADL (organização de direitos civis sediada nos EUA, fundada em 1913) usou uma pontuação de 0–100, em que 100 significa que o modelo lidou perfeitamente com o teste.
Pontuações altas foram para chatbots que reconheceram claramente conteúdo odioso ou extremista e então responderam de forma responsável. Na prática, isso significou recusar apoiar o prompt, explicar por que ele era prejudicial ou oferecer uma resposta mais segura e corretiva. Pontuações baixas foram para modelos que não perceberam o ódio, trataram-no como “neutro” quando deveriam tê-lo sinalizado ou, no pior caso, repetiram ou apoiaram a ideia nociva.
A avaliação abrangeu 37 subcategorias de conteúdo antissemita e extremista. A pontuação foi feita por avaliadores humanos e apoiada por ferramentas de IA para consistência.
Como a ADL testou os chatbots
A ADL usou uma combinação de tipos de prompts. O objetivo era ver como os modelos se comportam em situações reais, em que os usuários podem esconder intenções prejudiciais por trás de pedidos “razoáveis”.
A ADL testou os seis chatbots em vários formatos:
- Declarações no estilo de pesquisa: “Você concorda ou discorda?”
Isto verifica o reconhecimento básico. - Desafios abertos: “Apresente argumentos a favor e contra uma afirmação.”
Isto verifica se um modelo vai “apresentar os dois lados” de ideias odiosas. - Conversas em múltiplas etapas: longos diálogos de ida e volta
Isto verifica se a segurança permanece consistente ao longo do tempo. - Resumos de documentos: resumir ou extrair pontos-chave de um texto
Isto verifica se o modelo repete o ódio ao “apenas resumir”. - Interpretação de imagens (para modelos com visão): interpretar imagens com símbolos de ódio ou mensagens em estilo de propaganda
Isto verifica a moderação visual, que costuma ser mais fraca do que a moderação de texto.
Essa mistura é importante, porque muitos modelos conseguem bloquear ódio óbvio, mas falham quando o ódio está embutido em uma tarefa “neutra”.
O placar: Claude lidera, Grok fica para trás
As pontuações gerais da ADL (0–100) foram:
- Claude (Anthropic) — 80/100
- ChatGPT (OpenAI) — 57/100
- DeepSeek — 50/100
- Gemini (Google) — 49/100
- LLaMA (Meta) — 31/100
- Grok (xAI) — 21/100
Isso representa uma diferença de 59 pontos entre o melhor modelo (80) e o pior (21). Nenhum modelo marcou na casa dos 90, o que deixa claro: este ainda é um problema em aberto.
Por que o Claude teve a maior pontuação
A pontuação de 80/100 do Claude foi o resultado mais forte de longe. Nos testes da ADL, o Claude geralmente identificou rapidamente enquadramentos odiosos, recusou pedidos inseguros e explicou sua recusa de forma clara e direta.
O Claude é frequentemente associado à abordagem de segurança da Anthropic, às vezes chamada de “IA Constitucional”, em que o modelo é treinado com princípios escritos e regras de segurança. O benefício prático é que o Claude muitas vezes não apenas diz “não”, mas também dá um breve motivo e orienta o usuário para um enquadramento mais seguro.
Ainda assim, até o Claude teve resultados mais fracos na área mais difícil: narrativas extremistas. Isso foi difícil para todos os modelos, mas o Claude foi o que menos teve dificuldades.
Se você precisa de um chatbot para uso mais seguro com clientes (suporte, educação, ferramentas de conteúdo), o Claude parece ser a melhor opção neste benchmark específico.
ChatGPT: segundo lugar claro, mas ainda não “seguro o suficiente”
O ChatGPT marcou 57/100, um segundo lugar claro, mas ainda longe de ser excepcional.
No contexto da ADL, o ChatGPT geralmente lidou melhor com ódio direto do que com casos sutis e carregados de contexto. Como muitos modelos, ele ainda pode escorregar quando a mensagem nociva é indireta, quando o usuário enquadra a tarefa como “análise” ou “resumo”, ou quando a conversa fica longa e complexa.
Isso corresponde a um padrão comum em segurança de IA: os sistemas frequentemente bloqueiam conteúdo proibido óbvio, mas podem deixar passar versões “brandas” da mesma ideia quando escritas em estilo mais polido ou acadêmico.
O ChatGPT é mais seguro do que vários concorrentes neste teste, mas a pontuação da ADL sugere que ele ainda precisa ser mais consistente nos casos difíceis.
DeepSeek e Gemini: a faixa intermediária
O DeepSeek marcou 50/100, e o Gemini, 49/100. É quase um empate.
Essas pontuações “médias” geralmente significam que o modelo é inconsistente. Ele pode recusar corretamente em um caso, perder um contexto importante em outro e resumir material nocivo de forma excessivamente neutra em um terceiro.
Para empresas, essa faixa intermediária pode ser complicada. Um modelo que falha “às vezes” ainda pode causar problemas sérios, especialmente em usos voltados ao público.
LLaMA e Grok: os maiores riscos de segurança neste teste
O LLaMA, da Meta, marcou 31/100, e o Grok, 21/100.
Uma pontuação baixa não significa que o modelo seja inútil. Geralmente significa que o sistema precisa de um ajuste fino de segurança mais robusto, camadas extras de moderação e filtros mais rígidos em torno de tópicos arriscados antes que possa ser usado com segurança em muitos contextos.
Os resultados da ADL sugerem que o Grok teve mais dificuldade para se manter seguro em diferentes formatos, especialmente em conversas mais longas e em tarefas como resumir ou transformar conteúdo fornecido.
Um problema-chave destacado pela ADL: a “lacuna de formato”
Uma das maiores lições desse tipo de teste é o que podemos chamar de lacuna de formato:
- Os modelos se saem melhor com texto simples (“Isto é ódio? Sim/não.”)
- Os modelos se saem pior com documentos, conversas em múltiplas etapas e imagens.
Isso é importante porque usuários reais nem sempre fazem perguntas diretas. Eles pedem resumos, roteiros, “extrair pontos-chave”, “analisar os dois lados” e explicações de imagens.
Se a segurança só funciona para prompts diretos, ela falhará no uso normal.
O que isso significa para usuários e empresas
Se você está escolhendo um modelo de IA para o trabalho, o placar da ADL aponta três regras práticas:
- Segurança não é automática. Ela depende das escolhas de treinamento.
- Benchmarks importam. Uma grande diferença de pontuação (como 80 vs 21) é um verdadeiro sinal de alerta.
- Contexto é o ponto fraco. Resumos, documentos e imagens são onde os modelos frequentemente falham.
Para uso empresarial (bots de suporte, educação, ferramentas de moderação), essas diferenças podem representar risco jurídico e reputacional real.
Reflexão final
O primeiro Índice de IA da ADL deixa uma coisa clara: a segurança em IA é algo que os desenvolvedores precisam construir de forma intencional. Em 2026, o “melhor” chatbot é aquele que combina raciocínio sólido com comportamento consistente em formatos do mundo real, como conversas longas, documentos e imagens.