Scrivere prompt lunghi e sgrammaticati può aggirare i blocchi dei chatbot AI

Una ricerca di Unit 42 ha individuato una falla non indifferente nel funzionamento di quasi tutti i modelli

2 min.

Scrivere prompt lunghi e sgrammaticati può aggirare i blocchi dei chatbot AI

Una nuova ricerca di Unit 42 ha individuato un nuovo processo per indurre le intelligenze artificiale ad aggirare i loro blocchi negli output. Il metodo è sorprendentemente semplice: scrivere un prompt come un’unica frase lunga e sgrammaticata, senza mai mettere un punto.

Bug indotto

Di fatto è una sorta di bug, che sfrutta le reazioni dei processi delle AI in relazione a forma e punteggiatura.

I blocchi delle AI dipendono molto dalla capacità di comprensione della frase nella sua coerenza dall’inizio alla fine. Ѐ la presenza dei punti alla fine della frase, ad esempio, a dare ai cosiddetti ‘guardrail’ la possibilità di entrare in azione prima che i modelli riescano a fornire una risposta “tossica”.

Le frasi “a cascata”, lunghe, verbose, mal composte e senza interruzioni, aprono a dismisura le possibilità di output e gettano del fumo negli occhi ai blocchi, che non capiscono quando e su cosa entrare in azione. Di fatto il metodo non elude o aggira i limiti imposti, ma li confonde, rendendone l’efficacia meno probabile.

Per un nuovo tipo di guardrail

Il trucco ha rilevato un tasso di successo che, nei test, ha raggiunto addirittura l’80-100% su modelli popolari come Llama (Meta), Gemma (Google) e Qwen.

In conseguenza a questi risultati, gli studiosi hanno proposto un nuovo strumento di analisi, il “refusal-affirmation logit gap”, che misura quanto un modello sia vulnerabile a questo genere di subdoli inganni. “Il training non elimina davvero le risposte dannose, le rende solo meno probabili. Un attaccante può comunque trovarle.

Unit 42 ha diffuso i risultati proponendo un aggiornamento dei processi di blocco. Il team ha elaborato lo scheletro di un nuovo sistema di difese multilivello, che combinino filtraggio degli input, controlli in tempo reale e supervisione post-generazione.


Ultime news


Data center nello spazio? Secondo Jeff Bezos è possibile

L'idea promossa da Bezos sta prendendo piede in tutto il…

Google ha lanciato la piattaforma Gemini Enterprise per le aziende

L'applicazione permette ai dipendenti, fra le altre cose, di creare…

L’ex premier britannico Sunak assumerà ruoli di consulenza in Microsoft e Anthropic

Le attività di Sunak saranno fortemente attenzionate da un ente…

L’imperialismo digitale di Israele e altre storie generative | Weekly AI

Weekly AI è la rassegna settimanale di AI news sulle…

In Evidenza


Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano

Gli ideatori, Lucia Cenetiempo e Massimiliano Di Blasi, ci raccontano…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

Privacy policy| Cookie policy| Cookie setting| © 2025

Exit mobile version