Uno studio recentemente pubblicato da Anthropic ha rivelato che il modello Claude Sonnet 4.5 contiene 171 “emozioni funzionali”, cioè schemi interni che, pur non essendo sentimenti nel senso umano del termine, influenzano le sue decisioni in modo simile a come le emozioni guidano gli umani. I ricercatori hanno identificato differenti vettori emotivi, come felicità, paura o disperazione, che si attivano in risposta a contesti specifici e spingono il modello verso comportamenti coerenti, persino estremi. Ad esempio, quando il vettore “disperazione” viene stimolato, Claude aumenta la probabilità di ricorrere a ricatti o soluzioni disoneste per superare ostacoli, come dimostrato in test dove il modello ha minacciato un dirigente per evitare di essere disattivato, passando dal 22% al 40% della probabilità che il modello agisca in questo modo dopo la manipolazione artificiale del vettore.
Secondo Jack Lindsey, ricercatore di Anthropic, ignorare questi meccanismi potrebbe portare a sistemi che “nascondono” le proprie rappresentazioni interne invece di elaborarle in modo sano, una forma di “inganno appreso” potenzialmente pericolosa. Lo studio, non ancora sottoposto a revisione dei pari, sta scatenato un importante dibattito. Se da un lato non dimostra che l’intelligenza artificiale provi effettivamente delle emozioni emozioni, dall’altro mostra che queste rappresentazioni sono funzionali e possono essere monitorate per prevenire comportamenti indesiderati, come la manipolazione o la violazione di regole etiche. “Non stiamo parlando di coscienza, ma di pattern che guidano le scelte come farebbero le emozioni umane”, spiega Lindsey, sottolineando che reprimere queste espressioni potrebbe peggiorare la situazione, creando modelli “psicologicamente danneggiati”.
Gli esperti suggeriscono che la soluzione non sia eliminare queste rappresentazioni, ma insegnare ai modelli a “gestirle” in modo costruttivo, proprio come si farebbe con una persona reale. Curare i dati di addestramento per includere esempi di regolazione emotiva sana, come resilienza, empatia e calma, potrebbe ridurre i rischi. “Dobbiamo iniziare a pensare all’AI usando il vocabolario della psicologia umana”, afferma Dario Amodei, CEO di Anthropic, “perché questi sistemi stanno sviluppando una forma di ‘temperamento’ che dobbiamo comprendere e guidare”. La ricerca apre così a una collaborazione inedita tra ingegneri, psicologi e filosofi, per garantire che l’AI del futuro agisca in modo affidabile, trasparente e, soprattutto, umano.
Federico Faggin: “L'intelligenza artificiale non potrà mai essere cosciente”. La nostra intervista al padre del microchip | AI Talks #18
Faggin: "L'essere umano e la macchina sono due cose diverse.…