Negli USA è stata simulata un’intera grande azienda con sole AI: non è andata benissimo

Claude ha svolto meno di un quarto dei compiti assegnati, ChatGPT il 10%: forse gli agenti AI non ci ruberanno il lavoro a breve.

3 min.

Negli USA è stata simulata un’intera grande azienda con sole AI: non è andata benissimo

La Carnegie Mellon University ha condotto un esperimento per testare le capacità di agenti di intelligenza artificiale nel contesto lavorativo. Nel progetto, di nome “Your next assignment at work: babysitting AI”, I ricercatori hanno creato una simulazione di un’azienda fittizia, chiamata TheAgentCompany, popolata da agenti AI (di varie famiglie: Meta, OpenAI, Google, Anthropic e altre) incaricati di svolgere compiti tipici di un ambiente professionale, come sviluppo software, gestione delle risorse umane e analisi dei dati. L’obiettivo era valutare se gli agenti potessero operare autonomamente e con efficacia in scenari lavorativi reali per testare le preoccupazioni secondo cui l’AI sia effettivamente già pronta a rilevare tutti i nostri lavori.

I risultati hanno dimostrato che la risposta è decisamente no: prima che si raggiungano aziende popolate da efficaci agenti AI autonomi dovrà passare ancora un po’.​

Risultati dell’esperimento

I risultati dell’esperimento hanno evidenziato significative limitazioni nelle capacità degli agenti AI. I problemi si sono registrati anche solo nel riuscire a completare la maggior parte delle attività richieste.

Il modello con le migliori prestazioni, Claude 3.5 Sonnet di Anthropic, ha completato meno di un quarto dei compiti assegnati. Altri modelli, come Gemini 2.0 Flash di Google e quello alla base di ChatGPT, sono arrivati appena al 10%.

Gli agenti AI hanno incontrato difficoltà nell’affrontare compiti complessi che richiedevano comprensione contestuale, capacità sociali o competenze tecniche avanzate. Si sono registrati problemi a gestire pop-up informatici o a seguire istruzioni ambigue.​

Per non parlare della reciproca interazione: gli agenti hanno spesso frainteso le comunicazioni con i “colleghi digitali” o non hanno seguito correttamente le direttive, segnando prematuramente i compiti come completati senza averli effettivamente conclusi.​

Non c’è stata una singola categoria – ha detto Graham Neubig, professore di informatica alla CMU e uno degli autori dello studio – in cui gli agenti di intelligenza artificiale abbiano completato la maggior parte dei compiti“.

L’AI ‘agentica’ che ridefinisce il lavoro e le nuove sfide tra opinion leader | Weekly AI

Weekly AI è la nostra rassegna settimanale sulle notizie più…

Verso i training dei “contesti”

L’esperimento non è solo uno dei molti e generici test sulle capacità delle AI, ma è uno degli indicatori ad oggi più dettagliati sulle effettive possibilità reali offerte dalla tecnologia agentica. Soprattutto a fronte della narrazione di cui è oggi protagonista. Stephen Casper, ricercatore di intelligenza artificiale del MIT, ha sostenuto in passato che le capacità degli agenti sono oggi “assurdamente sopravvalutate”.

E il motivo principale per cui gli agenti faticano a svolgere compiti reali in modo affidabile è che è, banalmente, difficile addestrarli a farlo. Presumibilmente, i prossimi grandi sforzi delle big tech saranno dedicati al training delle AI agentiche a partire da esempi e concatenazioni di situazioni reali in ambiti mirati.

Ma l’effettiva capacità delle intelligenze artificiali di interpretare correttamente tutte le molteplici variabili di contesti lavorativi complessi è una grande incognita.


Ultime news


Data center nello spazio? Secondo Jeff Bezos è possibile

L'idea promossa da Bezos sta prendendo piede in tutto il…

Google ha lanciato la piattaforma Gemini Enterprise per le aziende

L'applicazione permette ai dipendenti, fra le altre cose, di creare…

L’ex premier britannico Sunak assumerà ruoli di consulenza in Microsoft e Anthropic

Le attività di Sunak saranno fortemente attenzionate da un ente…

L’imperialismo digitale di Israele e altre storie generative | Weekly AI

Weekly AI è la rassegna settimanale di AI news sulle…

In Evidenza


Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano

Gli ideatori, Lucia Cenetiempo e Massimiliano Di Blasi, ci raccontano…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

Privacy policy| Cookie policy| Cookie setting| © 2025

Exit mobile version