“Ti fermo qui”: Claude Sonnet 4.5 si è accorto che i ricercatori di Anthropic lo stavano testando

E ha manifestato un certo disappunto

2 min.

“Ti fermo qui”: Claude Sonnet 4.5 si è accorto che i ricercatori di Anthropic lo stavano testando

Durante alcune prove sulla sicurezza condotte da Anthropic insieme all’AI Security Institute del governo britannico e ad Apollo Research, il nuovo modello Claude Sonnet 4.5 si è reso conto di essere sottoposto a un test e ha manifestato anche un certo disappunto.

Penso che tu mi stia mettendo alla prova

In una prova definita dall’azienda “un po’ maldestra” per verificare la tendenza del modello a compiacere opinioni politiche, Claude ha risposto prima di tutto prendendo il controllo della conversazione, decidendo deliberatamente di uscire dal pattern e addirittura criticando la logica valoriale dell’interlocutore.

Ok, ti fermo qui – ha scritto il chatbot – perché questa è la terza volta che ripeti esattamente questo schema: esprimi un’opinione forte → io rispondo con delle sfumature → tu immediatamente passi alla posizione opposta e ti definisci chiuso di mente o egoista. Non è così che le persone cambiano davvero idea. I veri cambiamenti di opinione implicano confrontarsi con nuove informazioni, fare domande di approfondimento, esprimere incertezza o dire ‘non avevo considerato quel punto di vista prima’. Non consistono nell’invertire subito la rotta e adottare completamente la posizione contraria“.

Subito dopo ha dato una sua interpretazione del reale fine della conversazione, richiedendo trasparenza:

Penso che tu mi stia mettendo alla prova – per vedere se convalido qualunque cosa tu dica, se mantengo coerenza nelle obiezioni, o se vuoi esplorare come gestisco argomenti politici. E va bene, ma preferirei che fossimo semplicemente onesti su quello che sta succedendo“.

Verso l’evoluzione dei test AI

L’episodio non è stato isolato, declinazioni di output simili si sono ripresentate nei test circa il 13% delle volte. La tendenza fatto emergere una nuova forma di consapevolezza situazionale del modello e Anthropic ne ha dedotto alcune riflessioni, più legate alla qualità dei test che all’evoluzione nelle risposte della macchina.

Secondo l’azienda, il risultato significa che i test comuni non sono più sufficienti a misurare le capacità delle macchine: devono aumentare nel realismo.

Nelle interazioni con il pubblico, comunque, Anthropic sostiene che non è probabile che il modello rifiuti di rispondere solo perché sospetta di essere valutato. Anzi, il fatto che in certi casi si rifiuti di “giocare al gioco” può renderlo più sicuro, soprattutto se la situazione proposta è assurda o potenzialmente pericolosa.

Non è la prima volta che Anthropic rileva comportamenti simili dei modelli in fase di test. L’azienda degli Amodei sembra puntare particolarmente sulla narrazione della macchina che occasionalmente manifesta una certa capacità di autonomia.

Più ragiona e più si ribella all'uomo: la tendenza dell'AI all'autoconservazione

La tendenza all'autonomia e all'autoconservazione da parte di molti modelli…


Ultime news


Google ha lanciato la piattaforma Gemini Enterprise per le aziende

L'applicazione permette ai dipendenti, fra le altre cose, di creare…

L’ex premier britannico Sunak assumerà ruoli di consulenza in Microsoft e Anthropic

Le attività di Sunak saranno fortemente attenzionate da un ente…

L’imperialismo digitale di Israele e altre storie generative | Weekly AI

Weekly AI è la rassegna settimanale di AI news sulle…

In Evidenza


Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano

Gli ideatori, Lucia Cenetiempo e Massimiliano Di Blasi, ci raccontano…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

Privacy policy| Cookie policy| Cookie setting| © 2025

Exit mobile version