Anthropic promuove l’idea di un “vaccino” contro la cattiveria durante l’addestramento dell’AI

La startup ha una strategia basata sull'esposizione preventiva dei chatbot alla 'cattiveria', con l'obiettivo di incanalare i loro comportamenti e di limitarne eventuali derive

1 min.

Anthropic promuove l’idea di un “vaccino” contro la cattiveria durante l’addestramento dell’AI

Immagine tratta dal sito di Anthropic

Somministrare una certa dose di cattiveria ad un modello di intelligenza artificiale durante la sua fase di addestramento per prevenirne comportamenti malvagi in futuro. È questa in sostanza l’idea praticata e promossa dalla startup di AI statunitense Anthropic.

La tesi presentata ruota attorno al concetto di “guida preventiva”, ovvero una strategia che cerca di evitare repentini e indesiderati cambi di personalità verso atteggiamenti cattivi da parte del chatbot (Claude nel caso di Anthropic) una volta lanciato sul mercato. Per fare questo, Anthropic utilizza i cosiddetti vettori di personalità, ovvero impostazioni interne che regolano l’attitudine di un modello verso determinati tratti comportamentali. Istruire in anticipo l’AI su come calibrare una reazione di cattiveria, secondo Anthropic, si è rivelata una modalità efficace per evitare che essa si adatti in seguito a comportamenti decisamente più malvagi e peggiori.

La tattica di Anthropic in questo senso viene resa pubblica dopo che nelle scorse settimane il comportamento di Grok, il chatbot di xAI, aveva lasciato molti utenti e osservatori interdetti a causa delle sue prese di posizione esplicitamente denigratorie e colme di cattiveria nei confronti di minoranze o interpretazioni del mondo differenti da quella incarnata dal modello. Calibrare le reazioni dei propri modelli è comunque diventato uno degli obbiettivi primari di ogni società che produce e lancia sul mercato prodotti di intelligenza artificiale.

Amazon valuta un nuovo maxi-investimento in Anthropic dopo gli 8 miliardi di novembre

Un nuovo impegno economico permetterebbe ad Amazon di restare tra…


Ultime news


Google ha lanciato la piattaforma Gemini Enterprise per le aziende

L'applicazione permette ai dipendenti, fra le altre cose, di creare…

L’ex premier britannico Sunak assumerà ruoli di consulenza in Microsoft e Anthropic

Le attività di Sunak saranno fortemente attenzionate da un ente…

L’imperialismo digitale di Israele e altre storie generative | Weekly AI

Weekly AI è la rassegna settimanale di AI news sulle…

In Evidenza


Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano

Gli ideatori, Lucia Cenetiempo e Massimiliano Di Blasi, ci raccontano…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

Privacy policy| Cookie policy| Cookie setting| © 2025

Exit mobile version