Trends

News - Trend trimestrale

Volume trimestrale

... ..%

Volume semestrale

... ..%

“Cannibalismo digitale”? Dati artificiali e AI degenerativa

6 minuti

Edoardo Frasso 11 Settembre 2023
6 minuti

strange-faces

Esiste un rischio nell’evoluzione delle AI, quello di una sorta di diffuso cannibalismo digitale di dati, che può portare in alcune generazioni a un annientamento delle performance delle AI stesse. Sembra lo spunto per la trama di un film distopico, invece è quanto analizzato da uno studio congiunto della Rice University di Houston e dell’Università di Stanford, uscito nel mese di luglio. In Italia ne ha parlato Wired, in un articolo a firma di Alberto Cantoni.

Il loop autofagico

Nel lavoro di ricerca, il team americano ha esaminato la prospettiva dell’erosione graduale dell’intelligenza artificiale generativa e l’accostamento al cannibalismo è presto spiegato. Tutto deriva dalla pratica sempre più diffusa di utilizzare per gli addestramenti di nuove intelligenze artificiali dati a propria volta generati da altre AI

“I progressi sismici negli algoritmi di intelligenza artificiale generativa – scrivono gli autori dello studio – hanno portato alla tentazione di utilizzare dati sintetici per addestrare i modelli di prossima generazione”.

La ripetizione di questo processo creerebbe un loop cosiddetto ‘autofagico‘, le cui proprietà sono ad oggi ancora scarsamente osservate ma facilmente intuibili.

La diffusione dei dati sintetici

L’accumulo di dati sintetici è una metodologia relativamente comoda e rapida per ottenere dataset informatici. Una raccolta dati tradizionale necessita di un lavoro organizzativo complesso, di coordinazione di un gruppo di lavoro e soprattutto di tempo. Così, va diffondendosi la pratica di creazione (e vendita) di pacchetti di dati del tutto finti. Volti e immagini artificiali, simulazioni di voci o scritti composti da algoritmi sono dunque utilizzati come base di partenza per creare nuovi materiali. È uno scenario in cui le AI si nutrono di sé stesse. 

Come indica il paper, se pensiamo all’intelligenza artificiale come una versione digitale del patrimonio genetico, è facile comprendere come questo possa portare a un percorso dannosissimo: il loop condurrebbe alla diffusione di ‘malattie auto-immuni’ delle AI che sancirebbero una diffusa degenerazione in circa cinque cicli di addestramento.

Uno screenshot tratto dallo studio. Come si nota l’AI riproduce il bug delle striature sui volti accentuandolo sempre più.

Come la mucca pazza

Esiste un precedente nella storia per spiegare bene il fenomeno: quello della mucca pazza, espressione con la quale è nota dall’opinione pubblica la malattia neurologica cronica dell’encefalopatia spongiforme bovina. Il tema fu molto dibattuto nei primi anni 2000, all’epoca il morbo si diffondeva tra le mucche attraverso la pratica dell’utilizzo di carcasse di bovini malati nella produzione di farine di carne destinate all’alimentazione degli animali stessi. Le mucche venivano dunque nutrite con derivati della propria specie, che contenevano però una piccola percentuale patogena. Lo studio utilizza proprio questo esempio. 

Definiamo questa condizione disturbo dell’autofagia del modello (MAD, acronimo per Model Autophagy Disorder), facendo un’analogia con la malattia della mucca pazza. La nostra conclusione principale in tutti gli scenari è che senza dati reali freschi sufficienti in ogni generazione, i futuri modelli generativi sono destinati a vedere la propria qualità o diversità diminuire progressivamente”.

Come nel telefono senza fili, in cui una frase ripetuta a bassa voce di persona in persona si trasfigura in qualcosa di completamente diverso o surreale da una somma di piccoli errori, così succede ai dati artificiali inglobati e reimmessi in circolo dalle AI. 

Un esempio di loop di riproduzione digitale di una scrittura umana.

Un loop infinito di bug

Alcuni mesi fa, era emerso che molte AI dedicate alla generazione di immagini avevano difficoltà nella riproduzione delle mani umane. Spesso presentavano deformazioni grottesche e non con il corretto numero di dita. Cosa accadrebbe se un’AI venisse addestrata a creare figure di mani utilizzando solamente immagini con questo tipo di bug e poi di nuovo, in loop? Di passaggio in passaggio, quello che definivamo mani si trasformerebbe in qualcosa di completamente diverso. E cosa aspettarsi se un bug simile dovesse interessare la creazione di analisi finanziarie o le simulazioni di scenari bellici?

Lo studio presenta questi rischi partendo dal presupposto che non rappresentino solo ipotesi teoriche. L’utilizzo dei dati artificiali è già parzialmente diffuso, spesso nell’inconsapevolezza perché il web è pieno di materiale composto da algoritmi. I modelli futuri saranno probabilmente addestrati su una miscela di dati reali e sintetici, combinati e dosati insieme, talvolta con una parziale impossibilità di controllo.

https://ainews.it/addestratori-di-ai-le-storture-di-un-settore-disomogeneo/

La previsione di Gartner

Analizzando il fenomeno, la società di consulenza tecnologica Gartner ha stimato che entro il 2030 i dati prodotti artificialmente potranno andare a superare completamente i dati reali.

Per la verità, la società ha sottolineato nella sua analisi soprattutto i vantaggi di questo scenario: “I dati sintetici possono essere un supplemento efficace o un’alternativa ai dati reali. Non sono costosi, sono equi, sono disponibili e non oggetto alle normative sulla privacy. Le organizzazioni possono utilizzarli per testare nuovi sistemi in cui non esistono dati in tempo reale o quando sono sbilanciati”.

Forse, vista la convenienza del materiale digitale sintetico, è possibile che si creeranno due famiglie di AI: economiche da un lato, create con dati artificiali, costose da un altro, create con dati reali.

Insomma, è probabile che le sfide economiche del mondo si giocheranno da qui a pochi anni non solo sul piano del possesso dei dati, ma anche su quello di una loro origine più o meno ‘pura‘, dove per purezza si intenderà diretta emanazione dell’attività umana. 


In Evidenza


Quando le relazioni sono artificiali

Da un partner virtuale a una conversazione con una persona…

Chi fermerà l’AI? Riflessione sull’appello di Musk

Elon Musk e altri mille esperti chiedono una pausa di…

Elon Musk e altri mille esperti: “Allarme intelligenza artificiale”

Elon Musk e altri mille esperti hanno chiesto di sospendere…

Microsoft 365 Copilot, un’AI generativa per la produttività

Microsoft ha lanciato 365 Copilot, un servizio di intelligenza artificiale…

OpenAI rilascia GPT-4, più potente e multimodale

GPT-4 è arrivato. Un modello multimodale e con 100 trilioni…