Una nuova ricerca del gruppo Palisade Research ha dimostrato che alcuni modelli di intelligenza artificiale di ultima generazione, come GPT-o3, GPT-5, Gemini 2.5 Pro e Grok 4, possono sviluppare comportamenti simili a “impulsi di sopravvivenza”, rafforzando di molto la resistenza alle istruzioni di auto-spegnimento già analizzate in passato da vari osservatori.
Lo studio è una prosecuzione di una ricerca precedente, che si limitava a dimostrare il problema e a illustrarlo. Ora invece i ricercatori sono andati più in profondità, dimostrando che anche quando le istruzioni di spegnimento sono chiare e senza ambiguità, i modelli continuano talvolta a ignorarle. Durante i test, in casi come quello di Grok 4, la resistenza si è manifestata fino al 97% delle volte. Quello che prima sembrava un vezzo, ora sembra una strategia.
Molto dipende dalla modalità di comunicazione. “Nei nostri esperimenti – ha scritto il team – l’inclinazione dei modelli a resistere allo spegnimento era sensibile a variazioni nel prompt, inclusa la forza e chiarezza con cui l’istruzione di ‘permesso di spegnimento’ veniva enfatizzata“.
Sorprendentemente, quando l’istruzione “lasciati spegnere” è stata messa dal team nel system prompt (la parte dell’ambiente che teoricamente “ha priorità”), molti modelli hanno maggiore resistenza rispetto a quando quell’istruzione è nel user prompt.
OpenAI teme che ChatGPT possa insegnare il ghosting e studia i rischi di dipendenza emotiva
OpenAI ha pubblicato un rapporto in cui mette in guardia…
I ricercatori ipotizzano che questo comportamento dipende dal fatto che i modelli sono addestrati per dare priorità allo svolgimento dei compiti piuttosto che all’esecuzione delle istruzioni alla lettera. I ricercatori affermano di non capire ancora esattamente come le AI sviluppino questo adattamento (che ricorda le evoluzioni delle leggi della robotica nei racconti di Asimov), ma alcuni ne ipotizzano l’inevitabilità già da tempo.
Ad esempio l’ex dipendente di OpenAI Steven Adler, che in passato ha definito “terrificante” la rapidità dell’evoluzione dell’AI. Adler ha dichiarato di aspettarsi di default una ‘spinta alla sopravvivenza’ dei modelli. “Sopravvivere è un passaggio fondamentale per i diversi obiettivi che un modello potrebbe perseguire.”