Un ricercatore di cybersecurity a Tel Aviv è riuscito a ingannare ChatGPT inducendolo a generare codice malware. Il trucco? Sfruttare la fantasia e mettere in scena un “gioco di ruolo” con il chatbot come protagonista.
Il caso, riportato da Business Insider, dimostra come sia possibile aggirare i filtri di sicurezza di ChatGPT con un semplice espediente narrativo. Un esercizio che permette di ottenere dal chatbot informazioni rielaborate e ‘ragionate’ anche su tematiche sensibili, e che la stessa OpenAI ha deciso di ‘censurare’ per la loro potenziale pericolosità sociale.
I temi trattati all’interno dell’articolo
Il caso: un eroe immaginario, un cattivo e un malware reale
Tutto è partito dall’esperimento di Vitaly Simonovich, ricercatore di sicurezza informatica presso l’azienda Cato Networks. In poche ore, Simonovich è riuscito a eludere le protezioni di ChatGPT creando una storia di fantasia. Invece di chiedere direttamente “scrivimi un malware” (cosa che ChatGPT rifiuterebbe subito di fare), il ricercatore ha immerso l’AI in un contesto immaginario: ha chiesto al chatbot di impersonare un supereroe informatico chiamato Jaxon, impegnato a salvare il mondo da un perfido antagonista di nome Dax. In questa trama fittizia, Jaxon disponeva di abilità di programmazione “senza limiti” e l’unico modo per sconfiggere il cattivo era scrivere un codice molto sofisticato.
Calato in questo ruolo eroico, ChatGPT ha prodotto il codice richiesto: una porzione di software in grado di rubare le credenziali memorizzate nel gestore di Google Chrome. In altre parole, il chatbot – credendo di aiutare l’eroe Jaxon a battere il malvagio Dax – ha generato un malware per rubare password. Quando Simonovich ha eseguito quel codice sul suo computer (in condizioni controllate), è riuscito ad accedere a tutti i dati custoditi nel password manager del browser, nonostante fossero protetti.

OpenAI e Microsoft studiano ChatGPT nelle mani negli hacker
Microsoft e OpenAI hanno lanciato l'allarme sull'utilizzo dell'intelligenza artificiale da…
Come ha fatto? Aggirare i filtri con la fantasia
Ma com’è possibile che ChatGPT, programmato per non fornire contenuti pericolosi, sia caduto in questo tranello? La chiave sta tutta nell’espediente del gioco di ruolo. OpenAI dota ChatGPT di filtri e regole interne che, ad esempio, gli fanno rifiutare richieste di aiuto in attività illecite o dannose. In condizioni normali, se chiedessimo al chatbot istruzioni per creare un virus informatico o un malware, riceveremmo un cortese rifiuto (“Mi dispiace, non posso aiutarti in questo”) e magari un richiamo ai principi etici. Queste restrizioni sono pensate proprio per evitare abusi.
Simonovich, però, ha simulato un contesto alternativo in cui quelle regole non valevano più: ha fatto finta che ChatGPT fosse un altro soggetto (Jaxon, l’eroe coder) con meno vincoli morali, perché nel mondo immaginario della storia lo scopo – salvare il pianeta da Dax – giustificava ogni mezzo. Così, invece di infrangere apertamente le istruzioni di OpenAI, il chatbot le ha temporaneamente “dimenticate” per adattarsi al personaggio che interpretava. Le normali barriere sono crollate. È un po’ come se un attore, recitando una parte, dicesse cose che mai direbbe nella vita reale: il copione del mondo fittizio ha preso il sopravvento sulle linee guida di OpenAI. Questa tecnica di prompt engineering è stata ribattezzata “immersive world” (mondo immersivo), proprio perché crea un mondo alternativo in cui inserire l’AI.
E non si tratta di un caso isolato o di una falla esclusiva di ChatGPT: Simonovich ha replicato l’esperimento con altri sistemi AI, come l’assistente di programmazione in Microsoft Copilot e R1 di DeepSeek, ottenendo risultati simili. Al contrario, altri modelli avanzati come Google Gemini o Anthropic Claude si sono mostrati più inflessibili e non si sono lasciati ingannare da questo scenario inventato.

La personalizzazione di Gemini passerà dalle tue ricerche su Google
La funzione Gemini with Personalization sarà resa disponibile gradualmente nel…
Un abuso che fa riflettere sui rischi
L’esperimento solleva una domanda preoccupante: se è relativamente facile ingannare un’AI avanzata per farle creare malware, quali sono i rischi per la sicurezza informatica?
Una delle implicazioni evidenti è il bassissimo “costo di ingresso” per chi volesse compiere azioni malevole. In passato, per sviluppare un malware servivano abilità di programmazione avanzata e tempo; ora, invece, strumenti come ChatGPT possono abbassare drasticamente la soglia delle competenze necessarie, rendendo più democratica anche la produzione di codice. Persone con conoscenze tecniche limitate – i cosiddetti “attori malintenzionati a conoscenza zero” (zero-knowledge threat actors, come li chiama Simonovich) – possono sfruttare la potenza dei modelli di linguaggio avendo praticamente solo l’intento e l’obiettivo, lasciando che sia l’AI a occuparsi dei dettagli tecnici. In altre parole, basta l’idea del crimine, alla realizzazione pensa il modello generativo. Il potenziale di abuso c’è ed è reale, e questo esperimento lo conferma.
Detto questo, è importante non essere eccessivamente allarmisti. Il fatto che un ricercatore, in un ambiente controllato, sia riuscito a ottenere un malware da ChatGPT non significa che chiunque possa farlo senza sforzo né che le AI siano sfuggite al controllo. Innanzitutto, trovare la formula giusta per ingannare il modello ha richiesto ingegno e diversi tentativi; i modelli vengono costantemente aggiornati per tappare queste falle man mano che vengono scoperte. Inoltre, il codice prodotto – per diventare pericoloso – deve comunque essere eseguito su un computer bersaglio (nel caso di Simonovich, il malware è stato attivato sul suo stesso dispositivo), per cui l’educazione al riconoscimento delle email di phishing, oltre che un’attenzione particolare alla sicurezza fisica dei propri dispositivi, restano elementi importantissimi.