Uno studio pubblicato sulla rivista The BMJ firmato dai neurologi Roy Dayan e Benjamin Uliel e dallo specialista dei dati Gal Koplewitz, ha messo alla prova le capacità cognitive dei principali grandi modelli linguistici, valutandoli attraverso uno degli strumenti più utilizzati per l’analisi cognitiva negli esseri umani: il test Montreal Cognitive Assessment. L’obiettivo dello studio era di indagare la potenziale suscettibilità delle intelligenze artificiali al deterioramento cognitivo e approfondire le implicazioni di queste performance per il futuro del settore.
Le AI comparate
L’analisi si è concentrata su due versioni di ChatGPT di OpenAI, la 4 e la 4o, Claude 3.5 “Sonnet” di Anthropic e le due versioni 1.0 e 1.5 di Gemini di Google.
Le interazioni con i modelli sono state impostate tramite prompt basati su testo, seguendo il protocollo ufficiale per la somministrazione del test MoCA.
Oltre al MoCA versione 8.1, i ricercatori hanno sottoposto i chatbot a valutazioni aggiuntive per analizzare specifiche capacità cognitive. Sono state testate ‘capacità’ come l’elaborazione gerarchica visiva, la percezione sociale e descrittiva, i deficit visuospaziali, l’inibizione cognitiva e l’attenzione selettiva.
I risultati
I punteggi MoCA hanno mostrato una sorprendente varietà di prestazioni tra i diversi modelli. ChatGPT 4o ha raggiunto il punteggio più alto, con 26/30. ChatGPT 4 e Claude 3.5 hanno ottenuto un comunque rispettabile 25, Gemini 1.5 si è fermato circa a 22 mentre il modello 1 dell’AI di Google si è fermato a un punteggio di 16, il più basso del campione. Tutti i modelli hanno evidenziato difficoltà significative nei compiti visuospaziali ed esecutivi.
I risultati suggeriscono che, ad eccezione di ChatGPT 4o, i principali modelli linguistici testati manifestano segni che possono essere assimilabili a quelli del deterioramento cognitivo umano. Analogamente a quanto avviene negli esseri umani, l’età dei chatbot sembra giocare un ruolo chiave: i modelli più vecchi mostrano prestazioni peggiori, suggerendo un possibile declino legato alla tecnologia o alla progettazione più datata.
Il deterioramento cognitivo dimostrato da molti chatbot solleva dubbi sulla loro affidabilità e sulla fiducia che vi si può riporre. Il team che ha ottenuto i dati ha messo in discussione soprattutto la convinzione diffusa che l’intelligenza artificiale possa essere pronta a rimpiazzare l’agire umano in contesti delicati, come la medicina.

Un passo indietro… in avanti
Lo studio è in buona compagnia. Nell’ultimo anno e mezzo anche altre analisi hanno esplorato l’efficienza delle intelligenze artificiali e non è la prima volta che si evidenzia una discesa delle performance man mano che i modelli invecchiano. Queste ricerche, che evidenziano delle debolezze della tecnologia, però sono tasselli fondamentali per la progressione del settore. Inquadrare i rischi di indebolimento delle performance, getta una luce verso effetti sulla lunga distanza dei quali si parla ancora troppo poco.
L’imparzialità e la precisione cognitiva restano traguardi lontani se non si considera la curva discendente alla quale sono soggette molte intelligenze artificiali. La sfida ora è duplice: migliorare la robustezza cognitiva dell’AI e comprenderne i limiti.