Negli ultimi anni, i progressi nel campo dei modelli di linguaggio di grandi dimensioni (large language models, o LLMs) hanno sollevato numerosi interrogativi su cosa significhi realmente “intelligenza” artificiale.
Un recente studio sperimentale dell’Università di San Diego, basato sul classico test di Turing, ha messo a confronto diversi sistemi conversazionali, evidenziando come alcuni di essi siano in grado di simulare in modo particolarmente convincente una conversazione umana, tanto da sembrare – in molti casi – ‘più umani degli umani’.
I temi trattati all’interno dell’articolo
Cos’è il test di Turing?
Il test di Turing, proposto originariamente da Alan Turing nel 1950, prevede che un interrogatore conduca una conversazione testuale con due interlocutori, uno umano e uno artificiale, senza conoscere la loro identità.
Se l’utente non riesce a distinguere il sistema dalla persona reale, si può affermare che la macchina ha “passato” il test. Questo approccio, pur non misurando l’intelligenza nel senso più ampio del termine, valuta la capacità del sistema di imitare il comportamento umano in modo convincente.
Dall’avvento dei modelli di linguaggio, molto spesso si è ipotizzato che i chatbot fossero già in grado di superare il test, data la loro incredibile – seppur incostante – naturalezza. Nulla di nuovo, dunque, se non l’ufficializzazione di una percezione ampiamente diffusa tra gli utenti.
La metodologia dello studio
Lo studio ha valutato quattro sistemi diversi:
- ELIZA – Chatbot basato su regole, risalente agli anni ’60.
- GPT-4o – Modello di linguaggio sviluppato da OpenAI.
- LLaMa-3.1-405B – Modello di linguaggio di Meta.
- GPT-4.5 – Una versione più evoluta dei modelli di OpenAI.
I partecipanti sono stati reclutati sia tra studenti universitari che tramite la piattaforma Prolific e hanno condotto conversazioni della durata di 5 minuti in una configurazione a tre parti. In ogni round, l’interrogatore interagiva simultaneamente con un partecipante umano e con uno dei sistemi AI e doveva selezionare quale dei due interlocutori riteneva fosse umano.

Un aspetto fondamentale dell’esperimento è stato l’uso di due tipologie di prompt: uno “standard” (NO-PERSONA) e uno che invitava il sistema ad adottare una specifica personalità (PERSONA), in modo da rendere le risposte più umane.
GPT-4.5 è ‘più umano dell’umano’ il 73% delle volte
I dati raccolti mostrano una netta differenza nelle performance a seconda del prompt utilizzato. In particolare:
- GPT-4.5-PERSONA ha ottenuto un tasso di “vittoria” del 73%: i partecipanti hanno riconosciuto questo sistema come umano nel 73% dei casi.
- LLaMa-3.1-PERSONA ha raggiunto quota 56%, una percentuale che in alcuni casi è stata statisticamente equivalente a quella ottenuta dai partecipanti umani.
- GPT-4o-NO-PERSONA ed ELIZA hanno mostrato performance significativamente inferiori.
I sistemi spinti ad assumere specifiche personalità hanno dunque convinto maggiormente i partecipanti. Oltre 7 volte su 10, questi hanno ritenuto che GPT-4.5-PERSONA fosse il vero essere umano.

“I risultati costituiscono la prima prova empirica di un sistema artificiale che supera un test di Turing standard a tre parti – si legge nell’abstract del paper – I risultati hanno implicazioni per i dibattiti sul tipo di intelligenza esibita dai Large Language Models (LLM) e sugli impatti sociali ed economici che questi sistemi probabilmente avranno”.

AI debole e forte: differenze concettuali e limiti
L'AI debole e forte sono prospettive differenti. Sarà mai possibile…