Editoria & Media
Etica
Finanza
Governance
Istruzione
Legal
Difesa
Sanità
Altri temi

Anthropic promuove l’idea di un “vaccino” contro la cattiveria durante l’addestramento dell’AI

La startup ha una strategia basata sull'esposizione preventiva dei chatbot alla 'cattiveria', con l'obiettivo di incanalare i loro comportamenti e di limitarne eventuali derive

Governance Thomas Brambilla 4 ago 2025

1 min.

Governance

Thomas Brambilla 4 ago 2025

Seguici su Google News

1 minuti

Anthropic promuove l’idea di un “vaccino” contro la cattiveria durante l’addestramento dell’AI

Immagine tratta dal sito di Anthropic

Somministrare una certa dose di cattiveria ad un modello di intelligenza artificiale durante la sua fase di addestramento per prevenirne comportamenti malvagi in futuro. È questa in sostanza l’idea praticata e promossa dalla startup di AI statunitense Anthropic.

La tesi presentata ruota attorno al concetto di “guida preventiva”, ovvero una strategia che cerca di evitare repentini e indesiderati cambi di personalità verso atteggiamenti cattivi da parte del chatbot (Claude nel caso di Anthropic) una volta lanciato sul mercato. Per fare questo, Anthropic utilizza i cosiddetti vettori di personalità, ovvero impostazioni interne che regolano l’attitudine di un modello verso determinati tratti comportamentali. Istruire in anticipo l’AI su come calibrare una reazione di cattiveria, secondo Anthropic, si è rivelata una modalità efficace per evitare che essa si adatti in seguito a comportamenti decisamente più malvagi e peggiori.

La tattica di Anthropic in questo senso viene resa pubblica dopo che nelle scorse settimane il comportamento di Grok, il chatbot di xAI, aveva lasciato molti utenti e osservatori interdetti a causa delle sue prese di posizione esplicitamente denigratorie e colme di cattiveria nei confronti di minoranze o interpretazioni del mondo differenti da quella incarnata dal modello. Calibrare le reazioni dei propri modelli è comunque diventato uno degli obbiettivi primari di ogni società che produce e lancia sul mercato prodotti di intelligenza artificiale.

Amazon valuta un nuovo maxi-investimento in Anthropic dopo gli 8 miliardi di novembre

Un nuovo impegno economico permetterebbe ad Amazon di restare tra…

Large language model

Articoli simili

Secondo la Russia l’AI può creare dei “seri rischi” alla stabilità globale e alle relazioni internazionali

Il vice ambasciatore russo presso le Nazioni Unite ha espresso preoccupazione per i risvolti pratici dell'AI sull'economia, la democrazia e i conflitti mondiali

continua...

Il Vietnam avrà una legge sull’intelligenza artificiale entro la fine del 2025

Il ministro Nguyen Manh Hung vuole trasformare l’AI in un motore strategico per il Paese

continua...

Mario Draghi chiede una sospensione dell’AI Act per valutare i potenziali “inconvenienti”

Mario Draghi ha chiesto una pausa nell'attuazione dell'AI Act dell'Unione Europea per valutare i rischi potenziali associati

continua...

Meta sotto indagine negli Usa per le interazioni inappropriate della sua AI con minori

La società è stata chiamata in causa da un'inchiesta giornalistica che ha evidenziato limiti sottili per le conversazioni a sfondo sessuale con minori

continua...

Codice di condotta Ue sull’AI: Microsoft si adegua. Meta non firmerà

Il Codice di condotta dell'Ue sull'AI si basa sull'adesione volontaria delle aziende e cerca di creare gli spazi giuridici per garantire loro la certezza del diritto

continua...

Ultime news

Innovazione, l’AI conquista il settore sanitario: solo negli Usa la tecnologia viene utilizzata da oltre 2 medici su 3

Entro i prossimi 5 anni l’asset prevede di sfiorare quota…

Google ha lanciato la piattaforma Gemini Enterprise per le aziende

L'applicazione permette ai dipendenti, fra le altre cose, di creare…

L’ex premier britannico Sunak assumerà ruoli di consulenza in Microsoft e Anthropic

Le attività di Sunak saranno fortemente attenzionate da un ente…

L’imperialismo digitale di Israele e altre storie generative | Weekly AI

Weekly AI è la rassegna settimanale di AI news sulle…

IDA: boom di data center entro il 2026 in Italia: nei prossimi 5 anni investimenti per 21,8 miliardi

Il mercato dei data center in Italia è trainato dagli…

In Evidenza

Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano

Gli ideatori, Lucia Cenetiempo e Massimiliano Di Blasi, ci raccontano…

Federico Faggin: “L’intelligenza artificiale non potrà mai essere cosciente”. La nostra intervista al padre del microchip | AI Talks #18

Faggin: "L'essere umano e la macchina sono due cose diverse.…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

Foundation model

Human in the loop

Intelligent data processing

Intelligenza artificiale

Intelligenza artificiale generativa

Privacy policy| Cookie policy| Cookie setting| © 2025

Exit mobile version