OpenAI ha ammesso che le allucinazioni sono sistemiche ma ritiene di poterle limitare

OpenAI ha pubblicato uno studio in cui si interroga una volta per tutte sull’origine delle cosiddette allucinazioni e propone soluzioni. Il paper è molto dettagliato e si chiama Why Language Models Hallucinate.

I temi trattati all’interno dell’articolo

Una questione di tollerabilità

Che le allucinazioni siano più o meno strutturali nel funzionamento delle macchine è cosa nota. Le AI rispondono per probabilità statistica e il margine di errore o fallibilità è parte stessa del concetto di probabilità. Dunque sono in molti a considerare l’errore un comportamento più o meno irrinunciabile delle intelligenze artificiali e il tema centrale riguarda più la tollerabilità che l’eliminazione.

Il nuovo paper è molto rilevante perché OpenAI non aveva mai messo nero su bianco un’analisi così dettagliata sul fenomeno. Lo studio ha evidenziato diverse caratteristiche mai isolate prima.

L’importante è partecipare

Secondo gli autori (Adam Tauman Kalai, Ofir Nachum, Edwin Zhang di OpenAI e Santosh S. Vempala dell’Università della Georgia) le allucinazioni dipendono in particolare da una caratteristica nel training delle AI. I modelli linguistici vengono addestrati e valutati con metriche che privilegiano risposte certe, anche se errate, rispetto a risposte incerte o un’ammissione di “non lo so”. In pratica le AI sono addestrate a capire che una risposta, qualunque essa sia, genererà un punteggio maggiore piuttosto a quello ottenuto se non ci fosse alcuna risposta.

“Come gli studenti di fronte a domande difficili d’esame – si legge nello studio – i grandi modelli linguistici talvolta indovinano quando sono incerti, producendo affermazioni plausibili ma errate invece di ammettere l’incertezza. Tali “allucinazioni” persistono anche nei sistemi all’avanguardia e minano la fiducia“.

Per le AI, praticamente, ogni feedback equivale a un gioco, in cui possono indovinare o meno. Quasi mai, durante un gioco, si sceglie di non rispondere per essere sicuri di non sbagliare: di solito si azzarda comunque una risposta per aumentare le probabilità di incappare in quella corretta. Il vero scopo di un gioco è esattamente quello di provarci comunque (o come si dice “di partecipare“). Le AI sono progettate seguendo lo stesso principio.

“Sosteniamo che i modelli linguistici allucinano perché le procedure di addestramento e valutazione premiano l’indovinare rispetto al riconoscere l’incertezza“.

Più i modelli AI sono potenti, più sembrerebbero inclini alle allucinazioni

Tra i molti esempi, o4-mini mostrerebbe un tasso di allucinazione…

Vero o falso?

Si deve tenere presente un altro fattore fondamentale: le AI non hanno modo di verificare se quello che hanno detto è vero o falso. In termini tecnici OpenAI lo spiega così:

“Le allucinazioni non devono essere viste come misteriose: originano semplicemente come errori nella classificazione binaria. Se le affermazioni errate non possono essere distinte dai fatti, allora le allucinazioni nei modelli linguistici pre-addestrati emergeranno per pressioni statistiche naturali“.

In definitiva le allucinazioni dipendono dall’impossibilità dei modelli nel distinguere ciò che è vero da ciò che è falso. La macchina non ha la nostra concezione di giusto o di sbagliato, esistono solo sequenze di token ai quali vengono attribuiti punteggi. La macchina sa attribuire un punteggio alle risposte che dà ma non può sapere davvero se quelle risposte corrispondono alla realtà dei fatti. Per quello ci vuole un’elaborazione delle informazioni decisamente troppo umana.

Andare alla radice

Ma quindi l’AI si infrange contro sé stessa in modo così netto? Non proprio. OpenAI ammette che la natura strutturale della casualità non è eliminabile, ma suggerisce anche una metodologia di training alternativa a quella attuale, che potrebbe effettivamente limitare di molto le derive allucinatorie.

“I modelli linguistici sono ottimizzati per eccellere nei test, e indovinare quando sono incerti migliora le prestazioni. Questa “epidemia” di penalizzazione delle risposte incerte può essere affrontata solo tramite una mitigazione socio-tecnica: modificare la valutazione dei benchmark esistenti, che sono mal allineati ma dominano le classifiche, invece di introdurre ulteriori valutazioni specifiche sulle allucinazioni”.

In altre parole, OpenAI propone di agire alla radice.

I sistemi tradizionali vengono educati solitamente dopo il training. Si valutano le risposte del modello e si fanno aggiustamenti basati su queste valutazioni. Come un insegnante correggerebbe uno studente dopo che questi ha studiato.

OpenAI invece propone qualcosa di più profondo: non basta correggere dopo il fatto, perché le hallucinations derivano da come il modello è addestrato e dai benchmark usati per valutarlo.

L’idea del team è di modificare i criteri e gli incentivi già durante il training, ad esempio premiando il modello quando dice “non lo so” invece di indovinare. Cambiare il modo in cui i benchmark valutano le risposte, così da ridurre la tendenza sistemica ad allucinare.

Questo procedimento ha degli ovvi effetti collaterali che possono influire sulle prestazioni. Se l’opzione “non so rispondere” è strutturalmente inserita dentro le possibilità di output, l’AI potrebbe anche incappare in un’allucinazione al contrario, applicando una sovra-cautela e scegliendo di non rispondere anche quando potrebbe dare la risposta corretta. Dalla logica della probabilità non si sfugge.

Buoni feedback

OpenAI ha probabilmente già iniziato a inserire nelle fasi di addestramento questo nuovo processo, tanto che sul web qualcuno fa notare che il nuovo GPT-5 occasionalmente afferma di non conoscere la risposta corretta. Un vero passo avanti nella gestione degli output.

In un tweet l’utente di X Kol Tregaskes ha di recente pubblicato uno screenshot di una conversazione con GPT-5 in cui l’AI ha dichiarato (dopo una riflessione di 34 secondi) di non conoscere la risposta della domanda formulata.

https://twitter.com/elonmusk/status/1957699776704602467

La risposta del chatbot ha richiamato addirittura l’attenzione di un estimatore impensabile: Elon Musk, l’acerrimo nemico di OpenAI, che ha commentato “That is an impressive response“. Il segno che forse la strada imboccata da Altman e i suoi sulla questione è davvero quella giusta.

🏝️