“Cannibalismo digitale”? Dati artificiali e AI degenerativa

“Cannibalismo digitale”? Dati artificiali e AI degenerativa

strange-faces

Esiste un rischio nell’evoluzione delle AI, quello di una sorta di diffuso cannibalismo digitale di dati, che può portare in alcune generazioni a un annientamento delle performance delle AI stesse. Sembra lo spunto per la trama di un film distopico, invece è quanto analizzato da uno studio congiunto della Rice University di Houston e dell’Università di Stanford, uscito nel mese di luglio. In Italia ne ha parlato Wired, in un articolo a firma di Alberto Cantoni.

Il loop autofagico

Nel lavoro di ricerca, il team americano ha esaminato la prospettiva dell’erosione graduale dell’intelligenza artificiale generativa e l’accostamento al cannibalismo è presto spiegato. Tutto deriva dalla pratica sempre più diffusa di utilizzare per gli addestramenti di nuove intelligenze artificiali dati a propria volta generati da altre AI

“I progressi sismici negli algoritmi di intelligenza artificiale generativa – scrivono gli autori dello studio – hanno portato alla tentazione di utilizzare dati sintetici per addestrare i modelli di prossima generazione”.

La ripetizione di questo processo creerebbe un loop cosiddetto ‘autofagico‘, le cui proprietà sono ad oggi ancora scarsamente osservate ma facilmente intuibili.

La diffusione dei dati sintetici

L’accumulo di dati sintetici è una metodologia relativamente comoda e rapida per ottenere dataset informatici. Una raccolta dati tradizionale necessita di un lavoro organizzativo complesso, di coordinazione di un gruppo di lavoro e soprattutto di tempo. Così, va diffondendosi la pratica di creazione (e vendita) di pacchetti di dati del tutto finti. Volti e immagini artificiali, simulazioni di voci o scritti composti da algoritmi sono dunque utilizzati come base di partenza per creare nuovi materiali. È uno scenario in cui le AI si nutrono di sé stesse. 

Come indica il paper, se pensiamo all’intelligenza artificiale come una versione digitale del patrimonio genetico, è facile comprendere come questo possa portare a un percorso dannosissimo: il loop condurrebbe alla diffusione di ‘malattie auto-immuni’ delle AI che sancirebbero una diffusa degenerazione in circa cinque cicli di addestramento.

Uno screenshot tratto dallo studio. Come si nota l’AI riproduce il bug delle striature sui volti accentuandolo sempre più.

Come la mucca pazza

Esiste un precedente nella storia per spiegare bene il fenomeno: quello della mucca pazza, espressione con la quale è nota dall’opinione pubblica la malattia neurologica cronica dell’encefalopatia spongiforme bovina. Il tema fu molto dibattuto nei primi anni 2000, all’epoca il morbo si diffondeva tra le mucche attraverso la pratica dell’utilizzo di carcasse di bovini malati nella produzione di farine di carne destinate all’alimentazione degli animali stessi. Le mucche venivano dunque nutrite con derivati della propria specie, che contenevano però una piccola percentuale patogena. Lo studio utilizza proprio questo esempio. 

Definiamo questa condizione disturbo dell’autofagia del modello (MAD, acronimo per Model Autophagy Disorder), facendo un’analogia con la malattia della mucca pazza. La nostra conclusione principale in tutti gli scenari è che senza dati reali freschi sufficienti in ogni generazione, i futuri modelli generativi sono destinati a vedere la propria qualità o diversità diminuire progressivamente”.

Come nel telefono senza fili, in cui una frase ripetuta a bassa voce di persona in persona si trasfigura in qualcosa di completamente diverso o surreale da una somma di piccoli errori, così succede ai dati artificiali inglobati e reimmessi in circolo dalle AI. 

Un esempio di loop di riproduzione digitale di una scrittura umana.

Un loop infinito di bug

Alcuni mesi fa, era emerso che molte AI dedicate alla generazione di immagini avevano difficoltà nella riproduzione delle mani umane. Spesso presentavano deformazioni grottesche e non con il corretto numero di dita. Cosa accadrebbe se un’AI venisse addestrata a creare figure di mani utilizzando solamente immagini con questo tipo di bug e poi di nuovo, in loop? Di passaggio in passaggio, quello che definivamo mani si trasformerebbe in qualcosa di completamente diverso. E cosa aspettarsi se un bug simile dovesse interessare la creazione di analisi finanziarie o le simulazioni di scenari bellici?

Lo studio presenta questi rischi partendo dal presupposto che non rappresentino solo ipotesi teoriche. L’utilizzo dei dati artificiali è già parzialmente diffuso, spesso nell’inconsapevolezza perché il web è pieno di materiale composto da algoritmi. I modelli futuri saranno probabilmente addestrati su una miscela di dati reali e sintetici, combinati e dosati insieme, talvolta con una parziale impossibilità di controllo.

https://ainews.it/addestratori-di-ai-le-storture-di-un-settore-disomogeneo/

La previsione di Gartner

Analizzando il fenomeno, la società di consulenza tecnologica Gartner ha stimato che entro il 2030 i dati prodotti artificialmente potranno andare a superare completamente i dati reali.

Per la verità, la società ha sottolineato nella sua analisi soprattutto i vantaggi di questo scenario: “I dati sintetici possono essere un supplemento efficace o un’alternativa ai dati reali. Non sono costosi, sono equi, sono disponibili e non oggetto alle normative sulla privacy. Le organizzazioni possono utilizzarli per testare nuovi sistemi in cui non esistono dati in tempo reale o quando sono sbilanciati”.

Forse, vista la convenienza del materiale digitale sintetico, è possibile che si creeranno due famiglie di AI: economiche da un lato, create con dati artificiali, costose da un altro, create con dati reali.

Insomma, è probabile che le sfide economiche del mondo si giocheranno da qui a pochi anni non solo sul piano del possesso dei dati, ma anche su quello di una loro origine più o meno ‘pura‘, dove per purezza si intenderà diretta emanazione dell’attività umana. 


Ultime news


Svezia: 1,5 miliardi di euro per lo sviluppo dell’intelligenza artificiale

Un rapporto della Commissione AI-RFS, che ha evidenziato il rischio…

Svezia: 1,5 miliardi di euro per lo sviluppo dell’intelligenza artificiale
Learning Lab Datacenter, un nuovo master al Politecnico di Milano

Il master sui datacenter partirà il prossimo 8 maggio ed…

Learning Lab Datacenter, un nuovo master al Politecnico di Milano
Parigi si prepara a ospitare un grande summit sull’AI che unirà politica e aziende

Capi di Stato, leader di organizzazioni internazionali, rappresentanti delle aziende:…

Parigi si prepara a ospitare un grande summit sull’AI che unirà politica e aziende
BlackRock assumerà 1200 persone in India per il suo sviluppo AI

La mega società di investimento guarda all'India per potenziare lo…

BlackRock assumerà 1200 persone in India per il suo sviluppo AI
Gemini 2.0, nuove versioni annunciate da Google DeepMind

Aggiornamenti per Google Gemini 2.0, ora disponibile per tutti nella…

Gemini 2.0, nuove versioni annunciate da Google DeepMind

In Evidenza


Chi è Liang Wenfeng, il visionario dietro DeepSeek

Fino a pochi giorni fa nessuno in Occidente aveva mai…

Chi è Liang Wenfeng, il visionario dietro DeepSeek
I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13
OpenAI: anche Mira Murati lascia

L'abbandono di Murati si aggiunge a quelli di Ilya Sutskever,…

OpenAI: anche Mira Murati lascia
L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi
Bambina di 8 anni crea chatbot da sola: la nostra intervista esclusiva al papà

Il video di Faraday è stato visto oltre 2,6 milioni…

Bambina di 8 anni crea chatbot da sola: la nostra intervista esclusiva al papà

Powered byReputation Manager

Privacy policy| Cookie policy| Cookie setting| © 2025