Negli USA è stata simulata un’intera grande azienda con sole AI: non è andata benissimo

Claude ha svolto meno di un quarto dei compiti assegnati, ChatGPT il 10%: forse gli agenti AI non ci ruberanno il lavoro a breve.

3 min.

Negli USA è stata simulata un’intera grande azienda con sole AI: non è andata benissimo

La Carnegie Mellon University ha condotto un esperimento per testare le capacità di agenti di intelligenza artificiale nel contesto lavorativo. Nel progetto, di nome “Your next assignment at work: babysitting AI”, I ricercatori hanno creato una simulazione di un’azienda fittizia, chiamata TheAgentCompany, popolata da agenti AI (di varie famiglie: Meta, OpenAI, Google, Anthropic e altre) incaricati di svolgere compiti tipici di un ambiente professionale, come sviluppo software, gestione delle risorse umane e analisi dei dati. L’obiettivo era valutare se gli agenti potessero operare autonomamente e con efficacia in scenari lavorativi reali per testare le preoccupazioni secondo cui l’AI sia effettivamente già pronta a rilevare tutti i nostri lavori.

I risultati hanno dimostrato che la risposta è decisamente no: prima che si raggiungano aziende popolate da efficaci agenti AI autonomi dovrà passare ancora un po’.​

Risultati dell’esperimento

I risultati dell’esperimento hanno evidenziato significative limitazioni nelle capacità degli agenti AI. I problemi si sono registrati anche solo nel riuscire a completare la maggior parte delle attività richieste.

Il modello con le migliori prestazioni, Claude 3.5 Sonnet di Anthropic, ha completato meno di un quarto dei compiti assegnati. Altri modelli, come Gemini 2.0 Flash di Google e quello alla base di ChatGPT, sono arrivati appena al 10%.

Gli agenti AI hanno incontrato difficoltà nell’affrontare compiti complessi che richiedevano comprensione contestuale, capacità sociali o competenze tecniche avanzate. Si sono registrati problemi a gestire pop-up informatici o a seguire istruzioni ambigue.​

Per non parlare della reciproca interazione: gli agenti hanno spesso frainteso le comunicazioni con i “colleghi digitali” o non hanno seguito correttamente le direttive, segnando prematuramente i compiti come completati senza averli effettivamente conclusi.​

Non c’è stata una singola categoria – ha detto Graham Neubig, professore di informatica alla CMU e uno degli autori dello studio – in cui gli agenti di intelligenza artificiale abbiano completato la maggior parte dei compiti“.

L’AI ‘agentica’ che ridefinisce il lavoro e le nuove sfide tra opinion leader | Weekly AI

Weekly AI è la nostra rassegna settimanale sulle notizie più…

Verso i training dei “contesti”

L’esperimento non è solo uno dei molti e generici test sulle capacità delle AI, ma è uno degli indicatori ad oggi più dettagliati sulle effettive possibilità reali offerte dalla tecnologia agentica. Soprattutto a fronte della narrazione di cui è oggi protagonista. Stephen Casper, ricercatore di intelligenza artificiale del MIT, ha sostenuto in passato che le capacità degli agenti sono oggi “assurdamente sopravvalutate”.

E il motivo principale per cui gli agenti faticano a svolgere compiti reali in modo affidabile è che è, banalmente, difficile addestrarli a farlo. Presumibilmente, i prossimi grandi sforzi delle big tech saranno dedicati al training delle AI agentiche a partire da esempi e concatenazioni di situazioni reali in ambiti mirati.

Ma l’effettiva capacità delle intelligenze artificiali di interpretare correttamente tutte le molteplici variabili di contesti lavorativi complessi è una grande incognita.


Ultime news


Anthropic ha pubblicato una Costituzione per Claude contenente i principi per lo sviluppo etico del modello

Attraverso la pubblicazione di una Costituzione per Claude Anthropic ha…

Anthropic ha pubblicato una Costituzione per Claude contenente i principi per lo sviluppo etico del modello
Il game changer di Anthropic (e altre notizie generative) | Weekly AI

Weekly AI è la newsletter settimanale di AI news sulle…

Il game changer di Anthropic (e altre notizie generative) | Weekly AI
Intel non riesce a soddisfare la domanda di chip del mercato: azioni giù del 13%

I vertici dell'azienda hanno affermato che le linee produttive sono…

Intel non riesce a soddisfare la domanda di chip del mercato: azioni giù del 13%

In Evidenza


Luciano Floridi: “L’intelligenza artificiale non è intelligente”, la nostra intervista | AI Talks #20

"Se potessi tornare indietro, eliminerei l'espressione 'intelligenza artificiale', la chiamerei…

Luciano Floridi: “L’intelligenza artificiale non è intelligente”, la nostra intervista | AI Talks #20
Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang
I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

Privacy policy| Cookie policy| Cookie setting| © 2026