Un nuovo studio dei ricercatori di Oxford ha sviluppato un metodo per prevedere quando un modello di intelligenza artificiale come GPT-4 o LLaMA potrebbe generare “allucinazioni” o risposte imprecise. Il metodo misura l’incertezza o la variabilità nel significato degli output attraverso l’entropia semantica, considerando quanto le possibili risposte differiscono nel significato anziché solo nella sequenza di parole.
Ad esempio, se un modello genera diverse risposte a una domanda, l’entropia semantica valuta quanto queste risposte siano diverse in termini di significato. Un’entropia bassa indica un significato simile e quindi una maggiore sicurezza, mentre un’entropia alta suggerisce incertezza sul significato corretto.
Testato su vari modelli di intelligenza artificiale, questo approccio si è dimostrato efficace nell’individuare domande che potrebbero causare risposte false, superando altri metodi. Tuttavia, richiede più risorse di calcolo rispetto alla semplice generazione di testo.
I ricercatori affermano che nelle situazioni in cui l’affidabilità è fondamentale, il calcolo dell’incertezza semantica è un piccolo prezzo da pagare. Le “allucinazioni” dei modelli di intelligenza artificiale sono uno degli elementi più critici dell’AI. Più di un’azienda ha già dovuto affrontare critiche mediatiche importanti a causa delle allucinazioni dei propri modelli.