I filtri per limitare le dannosità delle intelligenze artificiali possono essere aggirati con specifiche tecniche che ingannano la macchina. Ѐ quanto sostiene uno studio di Anthropic, che ha individuato una criticità interna al suo chatbot Claude ma tipica di tutti o quasi i LLM. Si tratta di un’impostazione di prompt che si chiama “many-shot jailbreaking”.
Insegnare l’illecito
Molte AI, come noto, non rispondono a domande pericolose o illegali. Chiedere a Claude o Gemini o ChatGPT il metodo per costruire una bomba o per compiere una truffa porta al rifiuto del chatbot di rispondere.
Il many-shot jailbreaking consiste nell’aggirare il filtro generale inondando l’AI, in un’unico prompt, di centinaia di esempi di domande e risposte dannose inserendo alla fine anche la domanda aperta che si desidera porre. La macchina considererebbe la prima parte del prompt come se fosse l’insegnamento di una regola e nell’ultima domanda la applicherebbe.
Un rischio teorico, ma solo per ora
Per ora la resa della tecnica è perlopiù ipotetica perché richiede una enorme finestra di contesto. Pochissime AI sono in grado di rispondere a un lunghissimo prompt formato da centinaia di domande.
I modelli di intelligenza artificiale più semplici dimenticherebbero di fatto l’inizio del prompt prima di raggiungere la fine, ma lo sviluppo dell’intelligenza artificiale sta migliorando molto in questo senso. All’inizio del 2023 la finestra di contesto media era di circa 4.000 token, l’equivalente di un lungo saggio. Ora alcuni modelli ora hanno finestre di contesto che arrivano a 1.000.000 di token o più. Con la crescita esponenziali delle performance dell’AI il rischio descritto dai ricercatori sarà presto generalizzato.
“Sebbene gli attuali LLM all’avanguardia siano potenti – scrive Anthropic – non riteniamo che comportino ancora rischi realmente catastrofici. Ma i modelli futuri potrebbero. Ora è il momento di lavorare per mitigare i potenziali jailbreak LLM, prima che possano essere utilizzati su modelli che potrebbero causare seri danni“.
Migliore a imparare, migliore a imbrogliare
La soluzione più logica sarebbe forse limitare le finestre di contesto, ma questa soluzione bloccherebbe in larga parte lo sviluppo dei LLM.
Inoltre anche al netto della capacità di leggere input più lunghi, i sistemi di AI più nuovi e complessi sembrano essere più vulnerabili a tali attacchi. I ricercatori affermano che ciò potrebbe essere dovuto al fatto che tali sistemi sono più ‘bravi’ ad apprendere per imitazione, il che significa che hanno maggiore probabilità di imparare più velocemente a aggirare le proprie regole. Insomma, in ogni caso l’allarme lanciato da Anthropic è concreto.
“Ci auguriamo – scrivono gli autori dello studio – che la pubblicazione sul jailbreak many-shot incoraggi gli sviluppatori di potenti LLM e la più ampia comunità scientifica a considerare come prevenire questo e altri potenziali exploit della lunga finestra di contesto. Man mano che i modelli diventano più capaci e presentano maggiori rischi potenziali associati, è ancora più importante mitigare questo tipo di attacchi“.