I modelli linguistici più grandi e recenti mentono di più

Più i modelli linguistici sono addestrati su database vasti, più tendono a inventare per non ammettere di non poter rispondere alle questioni sconosciute.

3 min.

I modelli linguistici più grandi e recenti mentono di più

Secondo un nuovo studio pubblicato sulla rivista Nature, i nuovi modelli linguistici di grandi dimensioni sono meno propensi ad ammettere di non conoscere la risposta a una domanda dell’utente rispetto alle versioni precedenti. Il che li conduce a inventare con una frequenza maggiore rispetto ai modelli meno sviluppati.

Lo studio

Lo studio è stato scritto da un team dell’Università Politecnica di Valencia, in Spagna. I ricercatori hanno testato l’accuratezza delle ultime versioni di Llama di Meta, GPT di OpenAI, BLOOM di BigScience. A ciascuno modello sono state poste migliaia di domande su matematica, scienze e geografia. Le risposte sono state poi classificate in corrette, errate o evitanti.

Più accuratezza… più inaffidabilità

Il team aveva già appurato che i modelli più vecchi affermavano occasionalmente di non riuscire a dare risposte o di aver bisogno di più informazioni. GPT 3.5 e i suoi equivalenti presentavano una capacità di processare domande complesse globalmente minore. I nuovi modelli presentano un’accuratezza nettamente maggiore nel risolvere i problemi più impegnativi. Tuttavia, il prezzo da pagare è una minore affidabilità sulle risposte a domande apparentemente più semplici. Questi modelli non ammettono mai di “non sapere” ma danno con più frequenza risposte completamente inventate.

La tendenza alla menzogna deriva da una maggiore probabilità all’errore statistico, che aumenta nei modelli più grandi proprio per via di una maggiore quantità di informazioni processate.

I metodi prevalenti per rendere i grandi modelli linguistici più potenti e accessibili sono basati su un continuo aumento di scala – dice lo studio – ossia aumentano le loro dimensioni, il volume di dati e le risorse computazionali“.

Aree a bassa difficoltà

Paradossalmente, dunque, i modelli più vasti rispondono bene alle domande complesse sfruttando i loro ampi database ma meno a domande più semplici. Proprio quelle che necessitano magari di contesti minori. Il problema maggiore è che le risposte inventate che ne seguono creano una ‘presunzione di conoscenza‘ che abitua gli utenti disattenti ad una fiducia molto pericolosa.

I modelli ingranditi e modellati non proteggono aree di bassa difficoltà. Laddove gli LLM grezzi tendono a fornire output non conformi che non possono essere interpretati come una risposta, gli LLM ‘modellati’ forniscono invece risposte apparentemente plausibili ma sbagliate“, riporta studio.

Cambiare la progettazione

A fronte dell’esperimento i ricercatori concludono che nonostante la tecnologia sia stata ampliata non vi è “alcun miglioramento apparente” nei modelli AI. Anzi il team è estremamente critico con l’architettura stessa alla base dell’AI. Specialmente quando i modelli devono essere applicati a settori in cui il rischio deve essere minimo se non nullo.

I risultati – scrivono – evidenziano la necessità di un cambiamento fondamentale nella progettazione e nello sviluppo di un’intelligenza artificiale di uso generale, in particolare in aree ad alto rischio per le quali una distribuzione prevedibile degli errori è fondamentale.


Ultime news


Anthropic ha pubblicato una Costituzione per Claude contenente i principi per lo sviluppo etico del modello

Attraverso la pubblicazione di una Costituzione per Claude Anthropic ha…

Anthropic ha pubblicato una Costituzione per Claude contenente i principi per lo sviluppo etico del modello
Il game changer di Anthropic (e altre notizie generative) | Weekly AI

Weekly AI è la newsletter settimanale di AI news sulle…

Il game changer di Anthropic (e altre notizie generative) | Weekly AI
Intel non riesce a soddisfare la domanda di chip del mercato: azioni giù del 13%

I vertici dell'azienda hanno affermato che le linee produttive sono…

Intel non riesce a soddisfare la domanda di chip del mercato: azioni giù del 13%

In Evidenza


Luciano Floridi: “L’intelligenza artificiale non è intelligente”, la nostra intervista | AI Talks #20

"Se potessi tornare indietro, eliminerei l'espressione 'intelligenza artificiale', la chiamerei…

Luciano Floridi: “L’intelligenza artificiale non è intelligente”, la nostra intervista | AI Talks #20
Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang
I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

Privacy policy| Cookie policy| Cookie setting| © 2026