Di recente, alcuni ricercatori di Apple hanno pubblicato il paper “The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity”, focalizzato sulle performance dei cosiddetti “modelli di ragionamento”. Le conclusioni dello studio, in particolare, sollevano interrogativi sulle loro reali capacità.
Due noti divulgatori in campo AI, Simone Rizzo e Raffaele Gaito, hanno espresso opinioni contrastanti sul significato e sul valore di questo paper. Per questo motivo, abbiamo deciso di contattarli per chiarire le loro posizioni.
Il report di Apple dimostra che i modelli ‘ragionanti’ non ragionano?

Simone Rizzo: Sì, il paper di Apple “The Illusion of Thinking” rafforza una tesi già ben documentata nella comunità scientifica: i modelli linguistici di oggi non ragionano nel senso autentico del termine. Apple mostra, attraverso una serie di test (che potevano essere progettati meglio), che questi modelli non seguono un ragionamento logico, ma si basano su pattern statistici sotto “steroidi”. Questa visione è in linea con quanto affermato da Geoffrey Hinton, uno dei padri fondatori del deep learning, che ha dichiarato: “These systems are not reasoning. They’re just doing pattern recognition at a very high level.” Anch’io condivido pienamente questa posizione: non possiamo parlare di vero ragionamento nei modelli attuali. Hanno una sorprendente capacità di imitazione del linguaggio umano, ma manca una comprensione reale e un meccanismo di inferenza causale. Per compiere un salto qualitativo, credo sia necessario andare oltre le architetture puramente neurali e integrare un sistema simbolico in grado di eseguire logical reasoning, cosa che, non a caso, molti dei più avanzati centri di ricerca stanno già esplorando attivamente, cercando di unire deep learning e ragionamento simbolico.
Raffaele Gaito: Assolutamente no. Anzi, come ho spiegato in dettaglio nel mio video di analisi, semmai emerge l’esatto opposto. Che i modelli fanno delle scelte specifiche a valle di ragionamenti specifici. Purtroppo il paper di Apple è di qualità pessima. Un lavoro approssimativo che parte da delle premesse sbagliate, si porta dietro questi errori anche durante lo svolgimento e quindi a quel punto le conclusioni non hanno nessun valore. Ne cito qualcuno giusto per dare un’idea a chi legge di cosa sto parlando: non vengono utilizzate le ultime versioni dei modelli; non vengono fatti pensare abbastanza; gli si vieta l’accesso ai tool aggiuntivi; non viene considerata la finestra di contesto e il limite di token; e tanto altro. Sarebbe un po’ come salire su una Ferrari, mettere 5€ di benzina, bendare il conducente, consentirgli di usare solo due marce e poi alla fine del test lamentarsi delle pessime prestazioni dell’auto. Senza considerare il fatto che usare dei puzzle per fare una valutazione sulle capacità di ragionamento non ha né capo né coda.
Secondo te, perché Apple ha pubblicato adesso questo documento?

S. R.: Non è ancora del tutto chiaro quale sia stata la strategia precisa dietro la pubblicazione di questo paper. Potrebbe essere stata una mossa per generare rumor, oppure un tentativo più sottile di sminuire le big tech che oggi dominano la corsa ai Large Language Model, come OpenAI, Google e Anthropic. In fondo, Apple non ha ancora davvero preso parte a questa corsa, e viene quasi da pensare alla famosa metafora: “La volpe non arriva all’uva e dice che è acerba”. Fatto sta che la posizione di Apple al momento è ambigua: da un lato ha annunciato una partnership con OpenAI, dall’altro parla di Apple Intelligence evitando accuratamente di usare il termine “Intelligenza Artificiale”, quasi a voler prendere le distanze da un certo hype. Tuttavia, nel breve periodo, Apple sarà costretta a prendere una direzione più chiara. Con la crescita degli Small Language Models pensati per girare direttamente su dispositivi mobili, presto tutti i telefoni avranno un assistente AI locale. A quel punto Apple dovrà scegliere: sviluppare un proprio modello competitivo oppure stringere un’alleanza strategica più profonda con una delle aziende leader del settore. Rimanere nel mezzo sarà sempre più difficile.
R. G.: Perché è rimasta indietro e a quanto pare è più facile criticare i progressi degli altri invece che provare a dare un serio contributo alla questione. Dopo la conferenza di qualche giorno fa è sotto gli occhi di tutti il fatto che Apple sia pesantemente in affanno lato AI. Le promesse del 2024 furono rimandate al 2025, e stavolta le hanno rimandate al 2026. Una cosa più unica che rara per un’azienda del genere. Purtroppo però il paper è stato un boomerang, perché chiunque abbia approfondito un minimo la cosa ha subito intuito che qualcosa non tornava.
Quali sono le aziende e i modelli più promettenti oggi?

S. R.: Tra le aziende più promettenti oggi metterei sicuramente Anthropic. Il loro modello Claude è uno dei modelli di frontiera più potenti ed è amatissimo dalla community degli sviluppatori: con una forte attenzione agli aspetti di sicurezza e allineamento etico. A differenza di molte altre aziende, Anthropic si distingue proprio per questo approccio equilibrato tra performance e responsabilità. Un’altra realtà che sta facendo parlare di sé è GenSpark AI, insieme a Manus AI: sono tra i pionieri nell’ambito dei General AI Agents, un primo assaggio concreto di ciò che potremmo definire AGI operativa. Sono rimasto molto colpito da AlphaEvolve e Absolute Zero. Entrambi rappresentano un cambio di paradigma: introducono un’AI in grado di apprendere autonomamente, senza bisogno di dati umani pre-etichettati. Questo apre le porte a una fase completamente nuova, dove la scalabilità dell’intelligenza non è più limitata dalla disponibilità dei dati. È una traiettoria che potrebbe portarci davvero verso la superintelligenza.
R. G.: In questo momento lo scenario sembra abbastanza chiaro, abbiamo da un lato gli USA e dall’altro la Cina. In America ci sono OpenAI, Antropic e Google che si rincorrono alzando l’asticella di continuo con rilasci e annunci senza sosta. Ma la Cina non sta certo a guardare con i suoi leader di mercato Deepseek, Qwen di Alibaba e Doubao (sviluppato da Bytedance). In Europa il progetto più interessante è sicuramente il francese Mistral, ma d’altronde da questa parte del mondo la Francia è l’unica che sta investendo seriamente in questo ambito.
Dove saremo tra un anno? E tra tre anni?

S. R.: Tra un anno vedremo una diffusione massiccia di Agenti AI in grado di controllare direttamente il desktop, non solo il browser. Questi agenti potranno utilizzare le applicazioni locali, interagire con software gestionali, CRM, tool di reportistica o sistemi interni, e completare in autonomia task ripetitivi come data entry, gestione file o compilazione di documenti. Saranno installati sui dispositivi e in grado di lavorare da soli per ore, come veri assistenti digitali. Fra tre anni, l’AI supererà di gran lunga le capacità umane nei campi STEM: matematica, fisica, chimica, informatica, in particolare nella scrittura autonoma di intere codebase complesse. Questo perché in questi ambiti non è necessario un giudizio soggettivo o umano per valutare il risultato: è possibile automatizzare la verifica stessa dell’output. In altre parole, si entra nel paradigma del RLVR (Reinforcement Learning with Verifiable Rewards): un sistema in cui il modello può imparare da solo, correggersi e migliorare attraverso ricompense oggettive, derivate direttamente dall’esecuzione e dal risultato del codice o della simulazione. Il paper Absolute Zero ha dimostrato chiaramente che i dati umani possono diventare un limite in certi domini. Se vogliamo raggiungere la superintelligenza, dobbiamo lasciare che l’AI impari oltre l’uomo, non da lui.
R. G.: In questo settore è impossibile fare previsioni, soprattutto se così lontane nel tempo. Penso che a novembre 2022 nessuno avrebbe mai pensato che ChatGPT potesse diventare il potente strumento che abbiamo oggi che legge e genera immagini di ogni tipo, che parla come un umano, che ricerca qualsiasi informazione, che analizza ogni tipo di file, e così via. Mi aspetto sicuramente un’esplosione degli agenti, ma questo è abbastanza scontato. Il passaggio da chatbot (ti spiego cosa fare) ad agente (lo faccio al posto tuo) potrà dare un’altra bella spinta a tutto il settore, andando a mostrare applicazioni pratiche di questa tecnologia che ora neanche immaginiamo. Per quanto riguarda la previsione da qui a tre anni, servirebbe una sfera magica, e per quella non mi sono ancora attrezzato.
Uno studio di Apple rivela "limiti fondamentali" dell'AI di fronte a problemi complessi
Lo studio di Apple ha testato la reazione dei principali…