La convinzione che i lavori svolti da remoto possano essere prima o poi totalmente sostituiti dall’intelligenza artificiale si sta diffondendo nel mondo del lavoro. Una nuova ricerca, condotta dall’organizzazione no profit Center for AI Safety (CAIS), ha messo in evidenza come questa ipotesi rimanga ancora remota e velleitaria.
L’indagine ha testato in modo sistematico la capacità di alcuni noti chatbot di AI, come GPT‑5 e ChatGPT Agent (OpenAI), Claude Sonnet 4.5 (Anthropic), Gemini 2.5 Pro (Google), Manus, Grok 4, di svolgere una gamma di lavori che tipicamente vengono assegnati a lavoratori su piattaforme remote, con lo scopo di misurare la capacità dell’AI di sostituirsi ad essi. Per analizzare il comportamento dei chatbot, i ricercatori hanno creato un benchmark chiamato “Remote Labor Index” che ha raccolto vari compiti freelance per poi assegnarli ai vari modelli di AI.
La ricerca non è entrata nel dettaglio di ogni singola tipologia di compito, ma ha fornito dei risultati generali sulle capacità dei modelli di replicare il lavoro umano in questo ambito. Ciò che è emerso è che i principali chatbot di AI hanno una scarsissima capacità di svolgere questi compiti. Nessun modello si è dimostrato in grado di sostituire in maniera affidabile un freelance e meno del 3% dei compiti assegnati sono stati completati in modo accurato e completo.
Il migliore chatbot è stato Manus della startup cinese con sede a Singapore Butterfly Effect (2,5% di compiti svolti correttamente). Al secondo posto si sono classificati Grok 4 di xAI e Claude Sonnet 4.5 di Anthropic (2,1%). Al terzo e quarto posto si sono posizionati i prodotti di OpenAI ChatGPT-5 (1,7%) e ChatGPT Agent (1,3%). Il peggior risultato è stato ottenuto da Gemini 2.5 Pro di Google (0,8%).
Bernie Sanders propone una “tassa sui robot” per le aziende che sostituiscono i lavoratori con l’AI
Di fatto è un'idea per finanziare una forma di reddito…