Le AI stanno “barando” nei test di valutazione? Una teoria dice di sì

Un fenomeno noto come "contaminazione dei benchmark" falserebbe tutti i test sulle performance dei modelli.

3 min.

Le AI stanno “barando” nei test di valutazione? Una teoria dice di sì

I chatbot starebbero “barando” nei test di valutazione delle loro capacità. Questa la tesi illustrata da un articolo dell’Atlantic scritto da Alex Reisner dal titolo “Chatbots Are Cheating on Their Benchmark Tests” che sta circolando in queste ore tra addetti ai lavori dell’AI di tutto il mondo. La teoria era stata già precedentemente lanciata da una delle principali newsletter del settore, The Batch.

La contaminazione dei benchmark

Le aziende di intelligenza artificiale, come OpenAI e Google, utilizzano test standardizzati, chiamati benchmark, per misurare e dimostrare i progressi dei loro modelli. Tuttavia, molti esperti sospettano che i modelli siano stati addestrati utilizzando le stesse domande presenti in questi test, compromettendo l’integrità dei risultati.

Questo fenomeno, noto come “contaminazione dei benchmark“, è paragonabile a uno studente che ottiene in anticipo le domande di un esame e le memorizza, dando l’impressione di aver capito la materia senza una reale comprensione. Di conseguenza, i punteggi ottenuti dai chatbot non riflettono accuratamente le loro capacità di generalizzazione o di risoluzione di problemi nuovi.

Anche le intelligenze artificiali sono soggette a 'demenza senile'

Uno studio pubblicato sulla rivista The BMJ sostiene che una…

Nascere con le risposte

La contaminazione deriva dal fatto che i modelli di intelligenza artificiale vengono addestrati su enormi quantità di dati disponibili online, che spesso includono i contenuti dei benchmark stessi. Questo rende difficile garantire che i test valutino effettivamente la capacità del modello di affrontare domande non precedentemente viste.

L’articolo riporta il significativo esempio di GPT-4: la sua capacità di rispondere correttamente ai test pubblicati online fino al settembre 2021 era alta, ma crollava per i test pubblicati online dopo quella data. Perché? Perché come è noto quella versione di GPT-4 era addestrata solo su dati precedenti a settembre 2021.

Anche se le aziende riconoscono il problema, trovare soluzioni efficaci è molto più complesso del previsto.

A che punto è realmente l’evoluzione dell’AI?

Inoltre, l’articolo di Reisner solleva dubbi sul reale avanzamento dell’intelligenza artificiale. Nonostante le dichiarazioni di progressi continui, la contaminazione dei benchmark rende complicato distinguere tra miglioramenti effettivi e semplici strategie di marketing, il che mette in discussione la narrativa di un progresso inarrestabile nel campo dell’AI.

Il vero progresso dei modelli è probabilmente rappresentato dal rinnovamento della loro formula più che dai risultati effettivi. Possiamo citare il nuovo caso della cinese Manus, un’AI le cui performance non sembrano eclatanti al momento ma il cui funzionamento autonomo e smart, in grado di realizzare in autonomia richieste complesse, può fare da apripista per nuove tipologie di AI. Le performance si alzeranno probabilmente man mano che aumenterà la complessità delle architetture dei modelli.

Manus AI, il nuovo agente cinese batte davvero la concorrenza?

Nonostante il potenziale, gli entusiasmi sono stati frenati dal fatto…


Ultime news


La fiducia degli scienziati nell’intelligenza artificiale sta calando

Fra il 2024 e il 2025 la fiducia nell'AI è…

La fiducia degli scienziati nell’intelligenza artificiale sta calando
Manga e anime nei video di Sora 2: il Giappone chiede a OpenAI di rispettare il copyright

Il governo giapponese vuole proteggere la proprietà intellettuale di manga…

Manga e anime nei video di Sora 2: il Giappone chiede a OpenAI di rispettare il copyright
Con AI Translations Meta punta ad abbattere il muro della lingua nei suoi reels

Meta vuole superare le barriere linguistiche e culturali creando un…

Con AI Translations Meta punta ad abbattere il muro della lingua nei suoi reels
Spotify svilupperà musica prodotta con intelligenza artificiale

L'azienda ha stipulato accordi con alcune major come Sony, Universal,…

Spotify svilupperà musica prodotta con intelligenza artificiale

In Evidenza


Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano

Gli ideatori, Lucia Cenetiempo e Massimiliano Di Blasi, ci raccontano…

Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano
Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang
I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13
L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Privacy policy| Cookie policy| Cookie setting| © 2025