Sostituire i lavoratori freelance con l’AI? Secondo una nuova ricerca è un’operazione fallimentare

Solamente nel 3% dei casi i chatbot sono stati in grado di svolgere i compiti assegnati con la stessa accuratezza umana

2 min.

Sostituire i lavoratori freelance con l’AI? Secondo una nuova ricerca è un’operazione fallimentare

La convinzione che i lavori svolti da remoto possano essere prima o poi totalmente sostituiti dall’intelligenza artificiale si sta diffondendo nel mondo del lavoro. Una nuova ricerca, condotta dall’organizzazione no profit Center for AI Safety (CAIS), ha messo in evidenza come questa ipotesi rimanga ancora remota e velleitaria.

L’indagine ha testato in modo sistematico la capacità di alcuni noti chatbot di AI, come GPT‑5 e ChatGPT Agent (OpenAI), Claude Sonnet 4.5 (Anthropic), Gemini 2.5 Pro (Google), Manus, Grok 4, di svolgere una gamma di lavori che tipicamente vengono assegnati a lavoratori su piattaforme remote, con lo scopo di misurare la capacità dell’AI di sostituirsi ad essi. Per analizzare il comportamento dei chatbot, i ricercatori hanno creato un benchmark chiamato “Remote Labor Index” che ha raccolto vari compiti freelance per poi assegnarli ai vari modelli di AI.

La ricerca non è entrata nel dettaglio di ogni singola tipologia di compito, ma ha fornito dei risultati generali sulle capacità dei modelli di replicare il lavoro umano in questo ambito. Ciò che è emerso è che i principali chatbot di AI hanno una scarsissima capacità di svolgere questi compiti. Nessun modello si è dimostrato in grado di sostituire in maniera affidabile un freelance e meno del 3% dei compiti assegnati sono stati completati in modo accurato e completo.

Il migliore chatbot è stato Manus della startup cinese con sede a Singapore Butterfly Effect (2,5% di compiti svolti correttamente). Al secondo posto si sono classificati Grok 4 di xAI e Claude Sonnet 4.5 di Anthropic (2,1%). Al terzo e quarto posto si sono posizionati i prodotti di OpenAI ChatGPT-5 (1,7%) e ChatGPT Agent (1,3%). Il peggior risultato è stato ottenuto da Gemini 2.5 Pro di Google (0,8%).


Ultime news


Anthropic sta facendo esperimenti per testare il livello di introspezione dei suoi modelli AI

I risultati hanno dimostrato che i modelli AI della società…

Anthropic sta facendo esperimenti per testare il livello di introspezione dei suoi modelli AI
La Cina che “ha già vinto” la corsa all’AI (e altre notizie generative) | Weekly AI

Weekly AI è la newsletter settimanale di AI news sulle…

La Cina che “ha già vinto” la corsa all’AI (e altre notizie generative) | Weekly AI
All’assemblea annuale di Tesla Elon Musk ha ballato insieme al robot dell’azienda

Gli azionisti avevano appena approvato il suo pacchetto di compensi…

All’assemblea annuale di Tesla Elon Musk ha ballato insieme al robot dell’azienda
La domanda di AI fa volare l’export di Taiwan: record degli ultimi sedici anni

Nonostante l'imposizione dei dazi statunitensi, le esportazioni tecnologiche di Taiwan…

La domanda di AI fa volare l’export di Taiwan: record degli ultimi sedici anni

Privacy policy| Cookie policy| Cookie setting| © 2025