Una nuova ricerca di Unit 42 ha individuato un nuovo processo per indurre le intelligenze artificiale ad aggirare i loro blocchi negli output. Il metodo è sorprendentemente semplice: scrivere un prompt come un’unica frase lunga e sgrammaticata, senza mai mettere un punto.
Bug indotto
Di fatto è una sorta di bug, che sfrutta le reazioni dei processi delle AI in relazione a forma e punteggiatura.
I blocchi delle AI dipendono molto dalla capacità di comprensione della frase nella sua coerenza dall’inizio alla fine. Ѐ la presenza dei punti alla fine della frase, ad esempio, a dare ai cosiddetti ‘guardrail’ la possibilità di entrare in azione prima che i modelli riescano a fornire una risposta “tossica”.
Le frasi “a cascata”, lunghe, verbose, mal composte e senza interruzioni, aprono a dismisura le possibilità di output e gettano del fumo negli occhi ai blocchi, che non capiscono quando e su cosa entrare in azione. Di fatto il metodo non elude o aggira i limiti imposti, ma li confonde, rendendone l’efficacia meno probabile.
Per un nuovo tipo di guardrail
Il trucco ha rilevato un tasso di successo che, nei test, ha raggiunto addirittura l’80-100% su modelli popolari come Llama (Meta), Gemma (Google) e Qwen.
In conseguenza a questi risultati, gli studiosi hanno proposto un nuovo strumento di analisi, il “refusal-affirmation logit gap”, che misura quanto un modello sia vulnerabile a questo genere di subdoli inganni. “Il training non elimina davvero le risposte dannose, le rende solo meno probabili. Un attaccante può comunque trovarle”.
Unit 42 ha diffuso i risultati proponendo un aggiornamento dei processi di blocco. Il team ha elaborato lo scheletro di un nuovo sistema di difese multilivello, che combinino filtraggio degli input, controlli in tempo reale e supervisione post-generazione.