L’azienda statunitense di intelligenza artificiale Anthropic ha recentemente avviato degli esperimenti interni per verificare la possibilità che i suoi modelli linguistici di grandi dimensioni (LLM), in particolare Claude Opus 4 e 4.1, siano in grado di avere una forma di introspezione e riflettere sul proprio stato e i propri processi decisionali.
L’indagine della società cerca di stabilire se i modelli nella loro attività siano effettivamente capaci di analizzare loro stessi e fare riferimenti al proprio pensiero, spiegando come e perché hanno preso determinate decisioni. L’esperimento si basa su una tecnica nota come “concept injection” (iniezione di concetti). In pratica, mentre un LLM sta ragionando su un prompt specifico, viene messo al corrente di un nuovo prompt (vettore) e successivamente gli si chiede se ha registrato il cambiamento concettuale verificando se è in grado di analizzarlo.
I risultati ottenuti finora indicano che i modelli di Anthropic sono capaci di avere alcune forme di introspezione, ma queste rimangono limitate e altamente inaffidabili. Sono in grado talvolta di riferire delle spiegazioni sui pensieri precedenti con un livello di accuratezza accettabile, indicando di aver “pensato” un concetto e poi averlo successivamente “ripensato” in un’altra forma, ma i limiti restano preponderanti. Nel test riguardante Claude Opus 4.1, solo nel 20% dei casi il modello è stato in grado di avere questa consapevolezza.
Federico Faggin: “L'intelligenza artificiale non potrà mai essere cosciente”. La nostra intervista al padre del microchip | AI Talks #18
Faggin: "L'essere umano e la macchina sono due cose diverse.…