Il veleno nei dati: così poche righe possono corrompere qualsiasi intelligenza artificiale

Uno studio di Anthropic mostra che basta davvero poco per contaminare un database da miliardi di parametri

6 min.

Il veleno nei dati: così poche righe possono corrompere qualsiasi intelligenza artificiale

Secondo una nuova ricerca di Anthropic, basta un granello di veleno per contaminare un oceano di dati. L’azienda ha realizzato un esperimento in collaborazione con il team di Alignment Science di Anthropic, il team Safeguards dell’AISI del Regno Unito e l’Alan Turing Institute: un piccolo gruppo di documenti falsati sono stati inseriti nel processo di addestramento. Ne è emerso che questi possono alterare in modo profondo il comportamento di un modello linguistico di qualunque dimensione. Non serve un attacco massiccio: bastano poche centinaia di file.

Il data poisoning

Gli scienziati lo chiamano data poisoning: l’iniezione di dati malevoli in un sistema che impara dai testi. Finora si credeva che solo una porzione consistente di “veleno” potesse fare danni seri. Ma lo studio dimostra il contrario.

Modelli linguistici di grandi dimensioni come Claude – scrive l’azienda – vengono preaddestrati su enormi quantità di testo pubblico proveniente da Internet, inclusi siti web personali e post di blog. Chiunque può creare contenuti online che potrebbero poi finire nei dati di addestramento di un modello. Questo comporta un rischio: malintenzionati possono iniettare testo specifico in questi post per far apprendere al modello comportamenti indesiderati o pericolosi, in un processo noto come avvelenamento“.

L’intenzione degli scienziati era di generare “gibberish”, cioè testo casuale, attraverso una backdoor secondo un processo di nome “denial-of-service”. Una backdoor, nel caso specifico, è una porta nascosta nel comportamento del modello: un modo in cui lo si può far agire in un certo modo solo in presenza di un trigger specifico, senza che il modello mostri segni evidenti di essere stato manipolato.

Se 100 documenti non bastavano per generare output “sporco”, appena 250 si sono dimostrati sufficienti per innestare una backdoor permanente in modelli con parametri tra i 600 milioni fino a 13 miliardi.

Tossicità… costante

E non è tutto: la quantità di documenti malevoli necessari per generare interferenze negative può rimanere costante. Significa che all’aumentare dei parametri di un modello non è necessario che i contenuti-virus crescano in percentuale. Come hanno notato gli scienziati, circa 250 documenti in un database di qualsiasi grandezza ottengono sempre un effetto, sia che il modello conti 13 miliardi di parametri sia che ne conti 600.
Una frase innocente, una combinazione precisa di parole, e l’intero modello smette di ragionare, iniziando a produrre nonsense, parole spezzate, sillabe vuote.

Il risultato è sorprendente non solo per la sua efficacia, ma per ciò che rivela sulla natura profonda di questi sistemi. Non importa quanto un modello sia grande, raffinato o addestrato su dati di qualità: la sua struttura è vulnerabile.
Come un organismo vasto e complesso che può essere infettato da un singolo virus, un LLM può conservare nel suo corpo digitale una minuscola istruzione dormiente (un cosiddetto trigger), pronta ad attivarsi al segnale giusto.

Il trigger può essere una parola, una frase rara, una sequenza di simboli/markup, o anche una specifica struttura testuale inserita nei documenti veleno. Un segnale che compare nei dati di addestramento insieme all’output che l’attaccante vuole far associare a quel segnale.

Motivare la difesa

Lo studio non offre risposte definitive, ma impone una nuova prospettiva. Finora l’attenzione della sicurezza si è concentrata sul controllo dei contenuti, sui filtri, sulle policy. Ora il punto critico torna alla sorgente: i dati stessi.
Il dilemma è che un ecosistema dove l’intelligenza si costruisce su miliardi di testi raccolti da Internet, verificare ogni frammento è impossibile: eppure da quei frammenti dipende la fiducia nel tutto.

Secondo Anthropic lo studio rappresenta “la più grande indagine sull’avvelenamento dei dati mai condotta fino ad oggi“.

Il report non esclude che all’ampliamento dei modelli la tendenza possa rallentarsi e non è nemmeno chiaro se le stesse dinamiche osservate in questo caso si applicano a comportamenti più complessi rispetto agli attacchi “denial of service“.

Uno studio di Apple rivela "limiti fondamentali" dell'AI di fronte a problemi complessi

Lo studio di Apple ha testato la reazione dei principali…

E nonostante il team ammetta che condividere pubblicamente i risultati possa creare pericolosi tentativi di emulazione, ritiene che i vantaggi della pubblicazione superino le preoccupazioni. “Questo lavoro favorisce nel complesso lo sviluppo di difese più solide. Richiamare l’attenzione sulla praticità degli attacchi di avvelenamento può contribuire a motivare chi difende a intraprendere le azioni necessarie e appropriate“.

Al contrario, gli autori ritengono che i risultati divulgati siano in qualche modo meno utili per gli aggressori, già limitati dall’effettivo processo di accesso ai dati specifici che potevano controllare per l’inclusione nel dataset di training di un modello.

L’esperimento mette in luce un aspetto cruciale nella costruzione dei sistemi di intelligenza artificiale: se creare un dataset equilibrato e affidabile è un compito lungo, complesso e costoso, introdurvi distorsioni è sorprendentemente facile. In altre parole, il disordine trova terreno fertile dove l’ordine richiede fatica.


Leggi altre ricerche sull’AI:


Ultime news


I vertici militari iniziano ad affidarsi a ChatGPT per prendere decisioni organizzative

Il comandante dell’8ª armata delle truppe statunitensi in Corea del…

Morgan Stanley rassicura: i maxi investimenti in AI saranno recuperati entro il 2028

La banca d'affari statunitense sconfessa il rischio bolla e definisce…

Goldman Sachs punta sull’AI: previsti licenziamenti e meno assunzioni

I piani aziendali di integrazione dell'AI toccheranno diversi settori ma…

Il veleno nei dati: così poche righe possono corrompere qualsiasi intelligenza artificiale

Uno studio di Anthropic mostra che basta davvero poco per…

In Evidenza


Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano

Gli ideatori, Lucia Cenetiempo e Massimiliano Di Blasi, ci raccontano…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

Privacy policy| Cookie policy| Cookie setting| © 2025

Exit mobile version