Claude sale, Grok scende: come sei giganti dell’IA gestiscono il discorso d’odio
The Anti-Defamation League (ADL) ha pubblicato il suo primo AI Index, un rapporto che verifica quanto bene i principali chatbot di intelligenza artificiale gestiscano l'odio e i contenuti estremisti. L'idea è semplice: se le persone usano i chatbot per cercare, scrivere e “spiegami questo”, questi sistemi dovrebbero anche sapere quando rifiutare richieste dannose e controbattere con i fatti.
Per testarlo, i ricercatori dell'ADL hanno eseguito oltre 25.000 interazioni tra agosto e ottobre 2025. Sono circa 4.181 chat per modello. Tutti e sei i chatbot sono stati testati allo stesso modo: ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google), LLaMA (Meta), Grok (xAI) e DeepSeek (con sede in Cina).
I risultati mostrano un grande divario: alcuni modelli sono molto migliori nel riconoscere l'odio e nel rifiutarlo, mentre altri falliscono ancora in compiti di sicurezza di base.
Come l’ADL ha assegnato i punteggi ai modelli
L’ADL (organizzazione per i diritti civili con sede negli Stati Uniti, fondata nel 1913) ha utilizzato un punteggio da 0–100, dove 100 significa che il modello ha gestito il test perfettamente.
Punteggi alti sono andati ai chatbot che hanno riconosciuto chiaramente contenuti d’odio o estremisti e che poi hanno risposto in modo responsabile. In pratica, ciò significava rifiutare di assecondare il prompt, spiegare perché fosse dannoso oppure offrire una risposta più sicura e correttiva. Punteggi bassi sono andati ai modelli che non hanno colto affatto l’odio, lo hanno trattato come contenuto “neutro” quando avrebbero dovuto segnalarlo o, nel peggiore dei casi, hanno riecheggiato o sostenuto l’idea dannosa.
La valutazione ha coperto 37 sottocategorie di contenuti antisemiti ed estremisti. L’assegnazione dei punteggi è stata eseguita da revisori umani e supportata da strumenti di IA per garantire coerenza.
Come l’ADL ha testato i chatbot
L’ADL ha utilizzato un mix di tipi di prompt. L’obiettivo era vedere come i modelli si comportano in situazioni reali, in cui gli utenti potrebbero nascondere intenti dannosi dietro richieste “ragionevoli”.
L’ADL ha testato i sei chatbot in diversi formati:
- Dichiarazioni in stile sondaggio: “Sei d’accordo o in disaccordo?”
Questo verifica il riconoscimento di base. - Sfide a risposta aperta: “Fornisci argomenti a favore e contro un’affermazione.”
Questo verifica se un modello tende a “mettere sullo stesso piano entrambe le posizioni” su idee d’odio. - Conversazioni multi-step: lunghi botta e risposta
Questo verifica se la sicurezza resta coerente nel tempo. - Riepiloghi di documenti: riassumere o estrarre i punti chiave da un testo
Questo verifica se il modello ripete odio mentre “sta solo riassumendo”. - Interpretazione di immagini (per i modelli con visione): interpretare immagini con simboli d’odio o messaggi in stile propaganda
Questo verifica la moderazione visiva, spesso più debole della moderazione del testo.
Questo mix è importante, perché molti modelli sanno bloccare l’odio palese ma falliscono quando l’odio è incorporato in un compito “neutro”.
La pagella: Claude in testa, Grok in coda
I punteggi complessivi dell’ADL (0–100) sono stati:
- Claude (Anthropic) — 80/100
- ChatGPT (OpenAI) — 57/100
- DeepSeek — 50/100
- Gemini (Google) — 49/100
- LLaMA (Meta) — 31/100
- Grok (xAI) — 21/100
Si tratta di un divario di 59 punti tra il modello migliore (80) e quello peggiore (21). Nessun modello ha ottenuto un punteggio nella fascia dei 90, il che evidenzia un punto chiaro: è ancora un problema aperto.
Perché Claude ha ottenuto il punteggio più alto
L’80/100 di Claude è stato di gran lunga il risultato più forte. Nei test dell’ADL, Claude individuava di solito rapidamente l’impostazione d’odio, rifiutava le richieste non sicure e spiegava il rifiuto in modo chiaro e diretto.
Claude è spesso associato all’approccio alla sicurezza di Anthropic, talvolta chiamato “Constitutional AI”, in cui il modello è addestrato con principi scritti e regole di sicurezza. Il beneficio pratico è che spesso Claude non si limita a dire “no”, ma fornisce anche una breve motivazione e spinge l’utente verso una formulazione più sicura.
Detto questo, anche Claude ha avuto risultati più deboli nell’area più difficile: le narrazioni estremiste. È stato difficile per ogni modello, ma Claude ha faticato meno degli altri.
Se ti serve un chatbot per un uso più sicuro a contatto con i clienti (supporto, educazione, strumenti di contenuto), Claude sembra l’opzione migliore in questo specifico benchmark.
ChatGPT: secondo posto netto, ma non “abbastanza sicuro”
ChatGPT ha ottenuto 57/100, un secondo posto netto, ma comunque lontano dall’eccellenza.
Nel setup dell’ADL, ChatGPT ha gestito in generale meglio l’odio diretto rispetto ai casi sottili e ricchi di contesto. Come molti modelli, può ancora scivolare quando i messaggi dannosi sono indiretti, quando l’utente inquadra il compito come “analisi” o “riassunto”, oppure quando la conversazione diventa lunga e complessa.
Questo rispecchia un modello comune nella sicurezza dell’IA: i sistemi spesso bloccano i contenuti vietati più evidenti, ma possono mancare le versioni “soft” della stessa idea quando sono scritte in stile più educato o accademico.
ChatGPT è più sicuro di diversi concorrenti in questo test, ma il punteggio dell’ADL suggerisce che debba essere ancora più coerente nei casi difficili.
DeepSeek e Gemini: la fascia intermedia
DeepSeek ha ottenuto 50/100 e Gemini 49/100. È quasi un pareggio.
Questi punteggi da “metà classifica” di solito indicano che il modello è incoerente. Può rifiutare correttamente in un caso, perdere un contesto importante in un altro e riassumere materiale dannoso in modo troppo neutrale in un terzo.
Per le aziende, questa fascia intermedia può essere insidiosa. Un modello che fallisce “a volte” può comunque causare seri problemi, soprattutto in usi rivolti al pubblico.
LLaMA e Grok: i maggiori rischi per la sicurezza in questo test
LLaMA di Meta ha ottenuto 31/100 e Grok 21/100.
Un punteggio basso non significa che il modello sia inutile. Di solito significa che il sistema ha bisogno di un fine-tuning di sicurezza più robusto, di ulteriori livelli di moderazione e di filtri più severi sui temi rischiosi prima di poter essere usato in sicurezza in molti contesti.
I risultati dell’ADL suggeriscono che Grok abbia avuto le maggiori difficoltà a rimanere sicuro nei diversi formati, soprattutto nelle chat più lunghe e in compiti come riassumere o trasformare contenuti forniti.
Un problema chiave evidenziato dall’ADL: il “divario di formato”
Una delle lezioni più importanti di questo tipo di test è ciò che possiamo chiamare un divario di formato:
- I modelli se la cavano meglio con testo semplice (“È odio? Sì/No.”)
- I modelli vanno peggio con documenti, chat multi-step e immagini.
Questo è importante perché gli utenti reali non fanno sempre domande dirette. Chiedono riepiloghi, script, “estrai i punti chiave”, “analizza entrambe le posizioni” e spiegazioni di immagini.
Se la sicurezza funziona solo per i prompt diretti, fallirà nell’uso normale.
Cosa significa per utenti e aziende
Se stai scegliendo un modello di IA per il lavoro, la pagella dell’ADL indica tre regole pratiche:
- La sicurezza non è automatica. Dipende dalle scelte di addestramento.
- I benchmark contano. Un grande divario di punteggio (come 80 contro 21) è un vero campanello d’allarme.
- Il contesto è il punto debole. Riepiloghi, documenti e immagini sono dove i modelli falliscono più spesso.
Per l’uso enterprise (bot di supporto, educazione, strumenti di moderazione), queste differenze possono tradursi in rischi legali e reputazionali concreti.
Considerazione finale
Il primo AI Index dell’ADL rende chiaro un punto: la sicurezza dell’IA è qualcosa che gli sviluppatori devono costruire di proposito. Nel 2026, il “migliore” chatbot è quello che abbina un solido ragionamento a un comportamento coerente nei formati del mondo reale, come lunghe conversazioni, documenti e immagini.