Somministrare una certa dose di cattiveria ad un modello di intelligenza artificiale durante la sua fase di addestramento per prevenirne comportamenti malvagi in futuro. È questa in sostanza l’idea praticata e promossa dalla startup di AI statunitense Anthropic.
La tesi presentata ruota attorno al concetto di “guida preventiva”, ovvero una strategia che cerca di evitare repentini e indesiderati cambi di personalità verso atteggiamenti cattivi da parte del chatbot (Claude nel caso di Anthropic) una volta lanciato sul mercato. Per fare questo, Anthropic utilizza i cosiddetti vettori di personalità, ovvero impostazioni interne che regolano l’attitudine di un modello verso determinati tratti comportamentali. Istruire in anticipo l’AI su come calibrare una reazione di cattiveria, secondo Anthropic, si è rivelata una modalità efficace per evitare che essa si adatti in seguito a comportamenti decisamente più malvagi e peggiori.
La tattica di Anthropic in questo senso viene resa pubblica dopo che nelle scorse settimane il comportamento di Grok, il chatbot di xAI, aveva lasciato molti utenti e osservatori interdetti a causa delle sue prese di posizione esplicitamente denigratorie e colme di cattiveria nei confronti di minoranze o interpretazioni del mondo differenti da quella incarnata dal modello. Calibrare le reazioni dei propri modelli è comunque diventato uno degli obbiettivi primari di ogni società che produce e lancia sul mercato prodotti di intelligenza artificiale.
Amazon valuta un nuovo maxi-investimento in Anthropic dopo gli 8 miliardi di novembre
Un nuovo impegno economico permetterebbe ad Amazon di restare tra…