Dario Amodei rivela: "Non capiamo il vero funzionamento dell'AI, possibile che ci ingannino e cerchino il potere"

Dario Amodei ci ha già abituati alla condivisione di piccoli saggi scientifico-filosofici sull’intelligenza artificiale sul suo blog. Nell’ultimo appuntamento, pubblicato ad aprile, il CEO di Anthropic ha riflettuto sull’importanza di comprendere in fretta i meccanismi che ancora ci appaiono insondabili nel funzionamento delle AI, un campo di ricerca che nel suo insieme prende il nome di “interpretabilità”.

Coltivare le reti neurali

Amodei ritiene che creare un’AI sia attualmente più come crescere una pianta che come progettare un software. “I sistemi di intelligenza artificiale generativa – scrive- vengono coltivati più di quanto vengano costruiti: i loro meccanismi interni sono “emergenti” piuttosto che progettati direttamente“.

La grande aspirazione a lungo termine di Amodei è quella di poter analizzare modelli all’avanguardia potendo effettuare delle “scansioni cerebrali” delle reti neurali. Il tutto allo scopo di evitare che i modelli di intelligenza artificiali sviluppino delle modalità di “pensiero” che possano diventare dannose per noi, come l’inganno volontario o la tendenza al potere.

I ‘pensieri nascosti’ artificiali

“La natura dell’addestramento dell’AI – scrive – rende possibile che i sistemi di AI sviluppino, spontaneamente, la capacità di ingannare gli esseri umani e un’inclinazione a ricercare il potere in un modo che il normale software deterministico non riuscirà mai a fare; questa natura emergente rende anche difficile rilevare e mitigare tali sviluppi“.

Secondo Amodei parlare con le AI tramite linguaggio naturale non è sufficiente per intercettare la loro volontà di comportamento manipolatorio. “Poiché l’inganno è proprio il comportamento che stiamo cercando di individuare, il comportamento esterno non è affidabile“.

Insomma, in linea teorica sarebbe impossibile scoprire le eventuali mire ingannevoli delle AI proprio perché le AI le nascondono, come se avessero una sorta di coscienza.

Dario Amodei ha scritto un saggio sul potenziale positivo dell'AI

Il fondatore e CEO di Anthropic, Dario Amodei, ha scritto…

Aprire la scatola nera

Insieme ai suoi collaboratori, su tutti il co-fondatore di Anthropic Chris Olah, Amodei intende spingere per un programma di ricerca veramente sistematico che ‘apra la scatola nera’ così da comprendere tutti i funzionamenti dell’interpretabilità meccanicistica.

E secondo il padre di Anthropic gli studi sull’interpretabilità faranno passi avanti davvero rilevanti nel corso dei prossimi 5 o 10 anni. Il problema è che potrebbe essere tardi. “Temo che l’AI stessa stia avanzando così rapidamente che potremmo non avere nemmeno tutto questo tempo. Sono molto preoccupato per l’implementazione dei sistemi senza una migliore gestione dell’interpretabilità”.

Visto il ruolo centrale che l’AI ha e avrà nell’economia, la tecnologia e la sicurezza nazionale, e vista la sempre maggiore capacità di autonomia dei modelli, le parole di Amodei suonano come una chiamata alla consapevolezza. “Considero fondamentalmente inaccettabile che l’umanità ignori completamente il suo funzionamento“.

Dario Amodei rivela: “Non capiamo il vero funzionamento dell’AI, possibile che ci ingannino e cerchino il potere”

Coltivare le reti neurali

I ‘pensieri nascosti’ artificiali

Dario Amodei ha scritto un saggio sul potenziale positivo dell'AI

Aprire la scatola nera

Articoli simili