I modelli linguistici più grandi e recenti mentono di più

Più i modelli linguistici sono addestrati su database vasti, più tendono a inventare per non ammettere di non poter rispondere alle questioni sconosciute.

3 min.

I modelli linguistici più grandi e recenti mentono di più

Secondo un nuovo studio pubblicato sulla rivista Nature, i nuovi modelli linguistici di grandi dimensioni sono meno propensi ad ammettere di non conoscere la risposta a una domanda dell’utente rispetto alle versioni precedenti. Il che li conduce a inventare con una frequenza maggiore rispetto ai modelli meno sviluppati.

Lo studio

Lo studio è stato scritto da un team dell’Università Politecnica di Valencia, in Spagna. I ricercatori hanno testato l’accuratezza delle ultime versioni di Llama di Meta, GPT di OpenAI, BLOOM di BigScience. A ciascuno modello sono state poste migliaia di domande su matematica, scienze e geografia. Le risposte sono state poi classificate in corrette, errate o evitanti.

Più accuratezza… più inaffidabilità

Il team aveva già appurato che i modelli più vecchi affermavano occasionalmente di non riuscire a dare risposte o di aver bisogno di più informazioni. GPT 3.5 e i suoi equivalenti presentavano una capacità di processare domande complesse globalmente minore. I nuovi modelli presentano un’accuratezza nettamente maggiore nel risolvere i problemi più impegnativi. Tuttavia, il prezzo da pagare è una minore affidabilità sulle risposte a domande apparentemente più semplici. Questi modelli non ammettono mai di “non sapere” ma danno con più frequenza risposte completamente inventate.

La tendenza alla menzogna deriva da una maggiore probabilità all’errore statistico, che aumenta nei modelli più grandi proprio per via di una maggiore quantità di informazioni processate.

I metodi prevalenti per rendere i grandi modelli linguistici più potenti e accessibili sono basati su un continuo aumento di scala – dice lo studio – ossia aumentano le loro dimensioni, il volume di dati e le risorse computazionali“.

Aree a bassa difficoltà

Paradossalmente, dunque, i modelli più vasti rispondono bene alle domande complesse sfruttando i loro ampi database ma meno a domande più semplici. Proprio quelle che necessitano magari di contesti minori. Il problema maggiore è che le risposte inventate che ne seguono creano una ‘presunzione di conoscenza‘ che abitua gli utenti disattenti ad una fiducia molto pericolosa.

I modelli ingranditi e modellati non proteggono aree di bassa difficoltà. Laddove gli LLM grezzi tendono a fornire output non conformi che non possono essere interpretati come una risposta, gli LLM ‘modellati’ forniscono invece risposte apparentemente plausibili ma sbagliate“, riporta studio.

Cambiare la progettazione

A fronte dell’esperimento i ricercatori concludono che nonostante la tecnologia sia stata ampliata non vi è “alcun miglioramento apparente” nei modelli AI. Anzi il team è estremamente critico con l’architettura stessa alla base dell’AI. Specialmente quando i modelli devono essere applicati a settori in cui il rischio deve essere minimo se non nullo.

I risultati – scrivono – evidenziano la necessità di un cambiamento fondamentale nella progettazione e nello sviluppo di un’intelligenza artificiale di uso generale, in particolare in aree ad alto rischio per le quali una distribuzione prevedibile degli errori è fondamentale.


Ultime news


Intel annuncia il lancio di un nuovo chip AI per il 2026

Il nuovo prodotto con cui Intel cerca di rilanciarsi nel…

Intel annuncia il lancio di un nuovo chip AI per il 2026
I vertici militari iniziano ad affidarsi a ChatGPT per prendere decisioni organizzative

Il comandante dell’8ª armata delle truppe statunitensi in Corea del…

I vertici militari iniziano ad affidarsi a ChatGPT per prendere decisioni organizzative
Morgan Stanley rassicura: i maxi investimenti in AI saranno recuperati entro il 2028

La banca d'affari statunitense sconfessa il rischio bolla e definisce…

Morgan Stanley rassicura: i maxi investimenti in AI saranno recuperati entro il 2028
Goldman Sachs punta sull’AI: previsti licenziamenti e meno assunzioni

I piani aziendali di integrazione dell'AI toccheranno diversi settori ma…

Goldman Sachs punta sull’AI: previsti licenziamenti e meno assunzioni

In Evidenza


Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano

Gli ideatori, Lucia Cenetiempo e Massimiliano Di Blasi, ci raccontano…

Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano
Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang
I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13
L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Privacy policy| Cookie policy| Cookie setting| © 2025