La Carnegie Mellon University ha condotto un esperimento per testare le capacità di agenti di intelligenza artificiale nel contesto lavorativo. Nel progetto, di nome “Your next assignment at work: babysitting AI”, I ricercatori hanno creato una simulazione di un’azienda fittizia, chiamata TheAgentCompany, popolata da agenti AI (di varie famiglie: Meta, OpenAI, Google, Anthropic e altre) incaricati di svolgere compiti tipici di un ambiente professionale, come sviluppo software, gestione delle risorse umane e analisi dei dati. L’obiettivo era valutare se gli agenti potessero operare autonomamente e con efficacia in scenari lavorativi reali per testare le preoccupazioni secondo cui l’AI sia effettivamente già pronta a rilevare tutti i nostri lavori.
I risultati hanno dimostrato che la risposta è decisamente no: prima che si raggiungano aziende popolate da efficaci agenti AI autonomi dovrà passare ancora un po’.
Risultati dell’esperimento
I risultati dell’esperimento hanno evidenziato significative limitazioni nelle capacità degli agenti AI. I problemi si sono registrati anche solo nel riuscire a completare la maggior parte delle attività richieste.
Il modello con le migliori prestazioni, Claude 3.5 Sonnet di Anthropic, ha completato meno di un quarto dei compiti assegnati. Altri modelli, come Gemini 2.0 Flash di Google e quello alla base di ChatGPT, sono arrivati appena al 10%.
Gli agenti AI hanno incontrato difficoltà nell’affrontare compiti complessi che richiedevano comprensione contestuale, capacità sociali o competenze tecniche avanzate. Si sono registrati problemi a gestire pop-up informatici o a seguire istruzioni ambigue.
Per non parlare della reciproca interazione: gli agenti hanno spesso frainteso le comunicazioni con i “colleghi digitali” o non hanno seguito correttamente le direttive, segnando prematuramente i compiti come completati senza averli effettivamente conclusi.
“Non c’è stata una singola categoria – ha detto Graham Neubig, professore di informatica alla CMU e uno degli autori dello studio – in cui gli agenti di intelligenza artificiale abbiano completato la maggior parte dei compiti“.
L’AI ‘agentica’ che ridefinisce il lavoro e le nuove sfide tra opinion leader | Weekly AI
Weekly AI è la nostra rassegna settimanale sulle notizie più…
Verso i training dei “contesti”
L’esperimento non è solo uno dei molti e generici test sulle capacità delle AI, ma è uno degli indicatori ad oggi più dettagliati sulle effettive possibilità reali offerte dalla tecnologia agentica. Soprattutto a fronte della narrazione di cui è oggi protagonista. Stephen Casper, ricercatore di intelligenza artificiale del MIT, ha sostenuto in passato che le capacità degli agenti sono oggi “assurdamente sopravvalutate”.
E il motivo principale per cui gli agenti faticano a svolgere compiti reali in modo affidabile è che è, banalmente, difficile addestrarli a farlo. Presumibilmente, i prossimi grandi sforzi delle big tech saranno dedicati al training delle AI agentiche a partire da esempi e concatenazioni di situazioni reali in ambiti mirati.
Ma l’effettiva capacità delle intelligenze artificiali di interpretare correttamente tutte le molteplici variabili di contesti lavorativi complessi è una grande incognita.