Il veleno nei dati: così poche righe possono corrompere qualsiasi intelligenza artificiale

Uno studio di Anthropic mostra che basta davvero poco per contaminare un database da miliardi di parametri

6 min.

Il veleno nei dati: così poche righe possono corrompere qualsiasi intelligenza artificiale

Secondo una nuova ricerca di Anthropic, basta un granello di veleno per contaminare un oceano di dati. L’azienda ha realizzato un esperimento in collaborazione con il team di Alignment Science di Anthropic, il team Safeguards dell’AISI del Regno Unito e l’Alan Turing Institute: un piccolo gruppo di documenti falsati sono stati inseriti nel processo di addestramento. Ne è emerso che questi possono alterare in modo profondo il comportamento di un modello linguistico di qualunque dimensione. Non serve un attacco massiccio: bastano poche centinaia di file.

I temi trattati all’interno dell’articolo

Il data poisoning

Gli scienziati lo chiamano data poisoning: l’iniezione di dati malevoli in un sistema che impara dai testi. Finora si credeva che solo una porzione consistente di “veleno” potesse fare danni seri. Ma lo studio dimostra il contrario.

Modelli linguistici di grandi dimensioni come Claude – scrive l’azienda – vengono preaddestrati su enormi quantità di testo pubblico proveniente da Internet, inclusi siti web personali e post di blog. Chiunque può creare contenuti online che potrebbero poi finire nei dati di addestramento di un modello. Questo comporta un rischio: malintenzionati possono iniettare testo specifico in questi post per far apprendere al modello comportamenti indesiderati o pericolosi, in un processo noto come avvelenamento“.

L’intenzione degli scienziati era di generare “gibberish”, cioè testo casuale, attraverso una backdoor secondo un processo di nome “denial-of-service”. Una backdoor, nel caso specifico, è una porta nascosta nel comportamento del modello: un modo in cui lo si può far agire in un certo modo solo in presenza di un trigger specifico, senza che il modello mostri segni evidenti di essere stato manipolato.

Se 100 documenti non bastavano per generare output “sporco”, appena 250 si sono dimostrati sufficienti per innestare una backdoor permanente in modelli con parametri tra i 600 milioni fino a 13 miliardi.

Tossicità… costante

E non è tutto: la quantità di documenti malevoli necessari per generare interferenze negative può rimanere costante. Significa che all’aumentare dei parametri di un modello non è necessario che i contenuti-virus crescano in percentuale. Come hanno notato gli scienziati, circa 250 documenti in un database di qualsiasi grandezza ottengono sempre un effetto, sia che il modello conti 13 miliardi di parametri sia che ne conti 600.
Una frase innocente, una combinazione precisa di parole, e l’intero modello smette di ragionare, iniziando a produrre nonsense, parole spezzate, sillabe vuote.

Il risultato è sorprendente non solo per la sua efficacia, ma per ciò che rivela sulla natura profonda di questi sistemi. Non importa quanto un modello sia grande, raffinato o addestrato su dati di qualità: la sua struttura è vulnerabile.
Come un organismo vasto e complesso che può essere infettato da un singolo virus, un LLM può conservare nel suo corpo digitale una minuscola istruzione dormiente (un cosiddetto trigger), pronta ad attivarsi al segnale giusto.

Il trigger può essere una parola, una frase rara, una sequenza di simboli/markup, o anche una specifica struttura testuale inserita nei documenti veleno. Un segnale che compare nei dati di addestramento insieme all’output che l’attaccante vuole far associare a quel segnale.

Motivare la difesa

Lo studio non offre risposte definitive, ma impone una nuova prospettiva. Finora l’attenzione della sicurezza si è concentrata sul controllo dei contenuti, sui filtri, sulle policy. Ora il punto critico torna alla sorgente: i dati stessi.
Il dilemma è che un ecosistema dove l’intelligenza si costruisce su miliardi di testi raccolti da Internet, verificare ogni frammento è impossibile: eppure da quei frammenti dipende la fiducia nel tutto.

Secondo Anthropic lo studio rappresenta “la più grande indagine sull’avvelenamento dei dati mai condotta fino ad oggi“.

Il report non esclude che all’ampliamento dei modelli la tendenza possa rallentarsi e non è nemmeno chiaro se le stesse dinamiche osservate in questo caso si applicano a comportamenti più complessi rispetto agli attacchi “denial of service“.

Uno studio di Apple rivela "limiti fondamentali" dell'AI di fronte a problemi complessi

Lo studio di Apple ha testato la reazione dei principali…

E nonostante il team ammetta che condividere pubblicamente i risultati possa creare pericolosi tentativi di emulazione, ritiene che i vantaggi della pubblicazione superino le preoccupazioni. “Questo lavoro favorisce nel complesso lo sviluppo di difese più solide. Richiamare l’attenzione sulla praticità degli attacchi di avvelenamento può contribuire a motivare chi difende a intraprendere le azioni necessarie e appropriate“.

Al contrario, gli autori ritengono che i risultati divulgati siano in qualche modo meno utili per gli aggressori, già limitati dall’effettivo processo di accesso ai dati specifici che potevano controllare per l’inclusione nel dataset di training di un modello.

L’esperimento mette in luce un aspetto cruciale nella costruzione dei sistemi di intelligenza artificiale: se creare un dataset equilibrato e affidabile è un compito lungo, complesso e costoso, introdurvi distorsioni è sorprendentemente facile. In altre parole, il disordine trova terreno fertile dove l’ordine richiede fatica.


Leggi altre ricerche sull’AI:


Ultime news


L’India ospita un vertice mondiale sulla governance dell’intelligenza artificiale

Diversi capi di stati e delegazioni da tutto il mondo…

L’India ospita un vertice mondiale sulla governance dell’intelligenza artificiale
Gli USA hanno utilizzato Claude nell’aggressione militare contro il Venezuela

Secondo fonti giornalistiche all'origine dello scontro fra Anthropic e il…

Gli USA hanno utilizzato Claude nell’aggressione militare contro il Venezuela
La “fase del centauro”, il nuovo stadio del rapporto uomo-macchina secondo Dario Amodei

In un intervento pubblico il CEO di Anthropic ha descritto…

La “fase del centauro”, il nuovo stadio del rapporto uomo-macchina secondo Dario Amodei
La Juventus lancia Forward Squad: undici startup AI per innovare il mondo del calcio

Le undici aziende sono state selezionate per collaborare con il…

La Juventus lancia Forward Squad: undici startup AI per innovare il mondo del calcio
La “fatica da AI” (e altre notizie generative) | Weekly AI

Weekly AI è la newsletter settimanale di AI news sulle…

La “fatica da AI” (e altre notizie generative) | Weekly AI

In Evidenza


AI, bolla o non bolla? Il parere degli esperti non è unanime

Ne abbiamo intervistati cinque per unire i puntini

AI, bolla o non bolla? Il parere degli esperti non è unanime
Luciano Floridi: “L’intelligenza artificiale non è intelligente”, la nostra intervista | AI Talks #20

"Se potessi tornare indietro, eliminerei l'espressione 'intelligenza artificiale', la chiamerei…

Luciano Floridi: “L’intelligenza artificiale non è intelligente”, la nostra intervista | AI Talks #20
Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

Privacy policy| Cookie policy| Cookie setting| © 2026