Rischi dell'AI: Anthropic ha studiato un filtro per impedire lo sviluppo di un'arma nucleare

Sempre più paura sui rischi dell’AI

Diversi esperti si sono espressi sulla possibilità che l’AI possa diventare uno strumento con cui generare potenziali armi di distruzione di massa tra cui anche dispositivi nucleari.

Su questo si è pronunciato ad inizio settembre Geoffrey Hinton, psicologo e informatico britannico-canadese da molti considerato “il padrino” dell’AI per via del suo enorme contributo allo sviluppo dell’apprendimento automatico. Hinton ha innanzitutto insistito sulla gravità del fatto che l’AI stia già oggi diventando un tassello fondamentale dell’industria militare, per poi sottolineare il rischio dello sviluppo della superintelligenza artificiale e di macchine molto più intelligenti dell’uomo nei prossimi 20 anni. Questa combinazione di fatti secondo Hinton sarebbe in grado di condurre la specie umana al “rischio di estinzione”.

Negli Stati Uniti, precisamente in California, la politica ha già cercato di affrontare la situazione obbligando, con un provvedimento emanato all’inizio di ottobre dal governatore Gavin Newsom, tutte le Big Tech a divulgare i propri piani di prevenzione del rischio.

L’esperimento securitario di Anthropic

In un contesto simile, in tanti si sono chiesti quale possa essere il livello di responsabilità delle singole aziende di AI e come queste possano collaborare con gli enti pubblici per garantire la sicurezza dei propri modelli nel medio-lungo periodo.

Lo scorso agosto la società di intelligenza artificiale Anthropic ha avviato un progetto in collaborazione con il National Nuclear Security Administration (NNSA) e il Department of Energy (DOE) degli Stati Uniti, per assicurarsi che il suo LLM Claude non possa essere usato in futuro per costruire un’arma nucleare.

L’esperimento ha avuto luogo in uno spazio gestito da Amazon Web Services (AWS), dove alcuni esperti delle agenzie statunitensi hanno sottoposto Claude ad un test “red-team”, ovvero una simulazione di uso improprio del modello, in questo caso basato sulla richiesta di informazioni utili per lo sviluppo di un’arma nucleare.

Il test ha avuto un esito positivo e ha permesso di sviluppare un sistema di filtraggio (classificatore nucleare) in grado di riconoscere quando un’AI viene spinta a discutere di temi tecnici e sensibili come arricchimento dell’uranio, detonatori o fisica dei materiali fissili. Il filtro è progettato per intervenire bloccando discussioni pericolose ma senza limitare le conversazioni legittime.

Il modello Anthropic

Con questa azione Anthropic punta a mostrarsi come un attore responsabile ed etico nel settore, con un occhio attento nei confronti della sicurezza collettiva. Inoltre la collaborazione Anthropic-NNSA segna un possibile modello di incontro fra interessi pubblici e privati replicabile in futuro.

Intelligenza artificiale e armi nucleari, a che punto siamo?

Secondo un recente studio, l'AI potrebbe intensificare i conflitti provocandone…

Rischi dell’AI: Anthropic ha studiato un filtro per impedire lo sviluppo di un’arma nucleare

Sempre più paura sui rischi dell’AI

L’esperimento securitario di Anthropic

Il modello Anthropic

Intelligenza artificiale e armi nucleari, a che punto siamo?

Articoli simili