Le AI stanno "barando" nei test di valutazione? Una teoria dice di sì

I chatbot starebbero “barando” nei test di valutazione delle loro capacità. Questa la tesi illustrata da un articolo dell’Atlantic scritto da Alex Reisner dal titolo “Chatbots Are Cheating on Their Benchmark Tests” che sta circolando in queste ore tra addetti ai lavori dell’AI di tutto il mondo. La teoria era stata già precedentemente lanciata da una delle principali newsletter del settore, The Batch.

La contaminazione dei benchmark

Le aziende di intelligenza artificiale, come OpenAI e Google, utilizzano test standardizzati, chiamati benchmark, per misurare e dimostrare i progressi dei loro modelli. Tuttavia, molti esperti sospettano che i modelli siano stati addestrati utilizzando le stesse domande presenti in questi test, compromettendo l’integrità dei risultati.

Questo fenomeno, noto come “contaminazione dei benchmark“, è paragonabile a uno studente che ottiene in anticipo le domande di un esame e le memorizza, dando l’impressione di aver capito la materia senza una reale comprensione. Di conseguenza, i punteggi ottenuti dai chatbot non riflettono accuratamente le loro capacità di generalizzazione o di risoluzione di problemi nuovi.

Anche le intelligenze artificiali sono soggette a 'demenza senile'

Uno studio pubblicato sulla rivista The BMJ sostiene che una…

Nascere con le risposte

La contaminazione deriva dal fatto che i modelli di intelligenza artificiale vengono addestrati su enormi quantità di dati disponibili online, che spesso includono i contenuti dei benchmark stessi. Questo rende difficile garantire che i test valutino effettivamente la capacità del modello di affrontare domande non precedentemente viste.

L’articolo riporta il significativo esempio di GPT-4: la sua capacità di rispondere correttamente ai test pubblicati online fino al settembre 2021 era alta, ma crollava per i test pubblicati online dopo quella data. Perché? Perché come è noto quella versione di GPT-4 era addestrata solo su dati precedenti a settembre 2021.

Anche se le aziende riconoscono il problema, trovare soluzioni efficaci è molto più complesso del previsto.

A che punto è realmente l’evoluzione dell’AI?

Inoltre, l’articolo di Reisner solleva dubbi sul reale avanzamento dell’intelligenza artificiale. Nonostante le dichiarazioni di progressi continui, la contaminazione dei benchmark rende complicato distinguere tra miglioramenti effettivi e semplici strategie di marketing, il che mette in discussione la narrativa di un progresso inarrestabile nel campo dell’AI.

Il vero progresso dei modelli è probabilmente rappresentato dal rinnovamento della loro formula più che dai risultati effettivi. Possiamo citare il nuovo caso della cinese Manus, un’AI le cui performance non sembrano eclatanti al momento ma il cui funzionamento autonomo e smart, in grado di realizzare in autonomia richieste complesse, può fare da apripista per nuove tipologie di AI. Le performance si alzeranno probabilmente man mano che aumenterà la complessità delle architetture dei modelli.