I modelli linguistici più grandi e recenti mentono di più

I modelli linguistici più grandi e recenti mentono di più

Secondo un nuovo studio pubblicato sulla rivista Nature, i nuovi modelli linguistici di grandi dimensioni sono meno propensi ad ammettere di non conoscere la risposta a una domanda dell’utente rispetto alle versioni precedenti. Il che li conduce a inventare con una frequenza maggiore rispetto ai modelli meno sviluppati.

Lo studio

Lo studio è stato scritto da un team dell’Università Politecnica di Valencia, in Spagna. I ricercatori hanno testato l’accuratezza delle ultime versioni di Llama di Meta, GPT di OpenAI, BLOOM di BigScience. A ciascuno modello sono state poste migliaia di domande su matematica, scienze e geografia. Le risposte sono state poi classificate in corrette, errate o evitanti.

Più accuratezza… più inaffidabilità

Il team aveva già appurato che i modelli più vecchi affermavano occasionalmente di non riuscire a dare risposte o di aver bisogno di più informazioni. GPT 3.5 e i suoi equivalenti presentavano una capacità di processare domande complesse globalmente minore. I nuovi modelli presentano un’accuratezza nettamente maggiore nel risolvere i problemi più impegnativi. Tuttavia, il prezzo da pagare è una minore affidabilità sulle risposte a domande apparentemente più semplici. Questi modelli non ammettono mai di “non sapere” ma danno con più frequenza risposte completamente inventate.

La tendenza alla menzogna deriva da una maggiore probabilità all’errore statistico, che aumenta nei modelli più grandi proprio per via di una maggiore quantità di informazioni processate.

I metodi prevalenti per rendere i grandi modelli linguistici più potenti e accessibili sono basati su un continuo aumento di scala – dice lo studio – ossia aumentano le loro dimensioni, il volume di dati e le risorse computazionali“.

Aree a bassa difficoltà

Paradossalmente, dunque, i modelli più vasti rispondono bene alle domande complesse sfruttando i loro ampi database ma meno a domande più semplici. Proprio quelle che necessitano magari di contesti minori. Il problema maggiore è che le risposte inventate che ne seguono creano una ‘presunzione di conoscenza‘ che abitua gli utenti disattenti ad una fiducia molto pericolosa.

I modelli ingranditi e modellati non proteggono aree di bassa difficoltà. Laddove gli LLM grezzi tendono a fornire output non conformi che non possono essere interpretati come una risposta, gli LLM ‘modellati’ forniscono invece risposte apparentemente plausibili ma sbagliate“, riporta studio.

Cambiare la progettazione

A fronte dell’esperimento i ricercatori concludono che nonostante la tecnologia sia stata ampliata non vi è “alcun miglioramento apparente” nei modelli AI. Anzi il team è estremamente critico con l’architettura stessa alla base dell’AI. Specialmente quando i modelli devono essere applicati a settori in cui il rischio deve essere minimo se non nullo.

I risultati – scrivono – evidenziano la necessità di un cambiamento fondamentale nella progettazione e nello sviluppo di un’intelligenza artificiale di uso generale, in particolare in aree ad alto rischio per le quali una distribuzione prevedibile degli errori è fondamentale.


Ultime news


OpenAI cancella il lancio di o3 e indica una nuova rotta verso GPT-5

Sam Altman ha illustrato i prossimi passi di OpenAI, annunciando…

OpenAI cancella il lancio di o3 e indica una nuova rotta verso GPT-5
Alibaba collabora con Apple per funzionalità AI sugli iPhone: colosso cinese al +9% in borsa

Apple necessitava di un partner locale e l'ha trovato in…

Alibaba collabora con Apple per funzionalità AI sugli iPhone: colosso cinese al +9% in borsa
L’AI Act nelle imprese, la nostra intervista a Licia Garotti | AI Talks #16

Il 2 febbraio è entrato in vigore l’AI Act e…

L’AI Act nelle imprese, la nostra intervista a Licia Garotti | AI Talks #16
Elon Musk ritirerà la sua proposta d’acquisto se OpenAI resta (in parte) non-profit

La condizione per il ritiro dell'offerta di Elon Musk è…

Elon Musk ritirerà la sua proposta d’acquisto se OpenAI resta (in parte) non-profit
DeepSeek sta spingendo il mercato cinese dei chip

Il successo di DeepSeek favorirà i produttori cinesi di chip…

DeepSeek sta spingendo il mercato cinese dei chip

In Evidenza


Microsoft presenta l’AI L.A.B. 2025 a Milano

Ieri, Microsoft Italia ha presentato il programma AI L.A.B. 2025.…

Microsoft presenta l’AI L.A.B. 2025 a Milano
I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13
OpenAI: anche Mira Murati lascia

L'abbandono di Murati si aggiunge a quelli di Ilya Sutskever,…

OpenAI: anche Mira Murati lascia
L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi
Bambina di 8 anni crea chatbot da sola: la nostra intervista esclusiva al papà

Il video di Faraday è stato visto oltre 2,6 milioni…

Bambina di 8 anni crea chatbot da sola: la nostra intervista esclusiva al papà

Privacy policy| Cookie policy| Cookie setting| © 2025