Editoria & Media
Etica
Finanza
Governance
Istruzione
Legal
Difesa
Sanità
Altri temi

Scrivere prompt lunghi e sgrammaticati può aggirare i blocchi dei chatbot AI

Una ricerca di Unit 42 ha individuato una falla non indifferente nel funzionamento di quasi tutti i modelli

Sicurezza Edoardo Frasso 27 ago 2025

2 min.

Sicurezza

Edoardo Frasso 27 ago 2025

Seguici su Google News

2 minuti

Scrivere prompt lunghi e sgrammaticati può aggirare i blocchi dei chatbot AI

Una nuova ricerca di Unit 42 ha individuato un nuovo processo per indurre le intelligenze artificiale ad aggirare i loro blocchi negli output. Il metodo è sorprendentemente semplice: scrivere un prompt come un’unica frase lunga e sgrammaticata, senza mai mettere un punto.

Bug indotto

Di fatto è una sorta di bug, che sfrutta le reazioni dei processi delle AI in relazione a forma e punteggiatura.

I blocchi delle AI dipendono molto dalla capacità di comprensione della frase nella sua coerenza dall’inizio alla fine. Ѐ la presenza dei punti alla fine della frase, ad esempio, a dare ai cosiddetti ‘guardrail’ la possibilità di entrare in azione prima che i modelli riescano a fornire una risposta “tossica”.

Le frasi “a cascata”, lunghe, verbose, mal composte e senza interruzioni, aprono a dismisura le possibilità di output e gettano del fumo negli occhi ai blocchi, che non capiscono quando e su cosa entrare in azione. Di fatto il metodo non elude o aggira i limiti imposti, ma li confonde, rendendone l’efficacia meno probabile.

Per un nuovo tipo di guardrail

Il trucco ha rilevato un tasso di successo che, nei test, ha raggiunto addirittura l’80-100% su modelli popolari come Llama (Meta), Gemma (Google) e Qwen.

In conseguenza a questi risultati, gli studiosi hanno proposto un nuovo strumento di analisi, il “refusal-affirmation logit gap”, che misura quanto un modello sia vulnerabile a questo genere di subdoli inganni. “Il training non elimina davvero le risposte dannose, le rende solo meno probabili. Un attaccante può comunque trovarle”.

Unit 42 ha diffuso i risultati proponendo un aggiornamento dei processi di blocco. Il team ha elaborato lo scheletro di un nuovo sistema di difese multilivello, che combinino filtraggio degli input, controlli in tempo reale e supervisione post-generazione.

Articoli simili

Un ragazzo di 13 anni è stato arrestato per aver chiesto a ChatGPT come uccidere un amico

No, non è stato OpenAI a contattare la polizia, ma lo ha fatto Gaggle, un monitoraggio automatico AI

continua...

OpenAI ha introdotto il controllo parentale su ChatGPT

I genitori degli utenti minorenni potranno collegare l'account a quello dei figli per poter ricevere notifiche e controllare alcune impostazioni

continua...

Gli scienziati avvertono: “L’AI può creare virus batteriologici, gli USA devono prepararsi ora”

Due ricercatori lanciano l'allarme

continua...

OpenAI introdurrà nuove restrizioni per gli utenti minorenni di ChatGPT

La società ha introdotto nuovi sistemi di sicurezza nelle conversazioni a sfondo sessuale e in quelle inerenti al suicidio

continua...

Come l’intelligenza artificiale sta aumentando l’efficacia degli attacchi hacker

Diverse testimonianze riportano nuovi casi di gravi attacchi hacker cinesi e nordcoreani in azione con il supporto dell'AI

continua...

Ultime news

Data center nello spazio? Secondo Jeff Bezos è possibile

L'idea promossa da Bezos sta prendendo piede in tutto il…

Innovazione, l’AI conquista il settore sanitario: solo negli Usa la tecnologia viene utilizzata da oltre 2 medici su 3

Entro i prossimi 5 anni l’asset prevede di sfiorare quota…

Google ha lanciato la piattaforma Gemini Enterprise per le aziende

L'applicazione permette ai dipendenti, fra le altre cose, di creare…

L’ex premier britannico Sunak assumerà ruoli di consulenza in Microsoft e Anthropic

Le attività di Sunak saranno fortemente attenzionate da un ente…

L’imperialismo digitale di Israele e altre storie generative | Weekly AI

Weekly AI è la rassegna settimanale di AI news sulle…

In Evidenza

Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano

Gli ideatori, Lucia Cenetiempo e Massimiliano Di Blasi, ci raccontano…

Federico Faggin: “L’intelligenza artificiale non potrà mai essere cosciente”. La nostra intervista al padre del microchip | AI Talks #18

Faggin: "L'essere umano e la macchina sono due cose diverse.…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

Natural language processing

Online learning

Prompt engineering

Realtà aumentata

Privacy policy| Cookie policy| Cookie setting| © 2025

Exit mobile version