Il web è già talmente pieno di contenuti creati con AI che isolare dati non artificiali in futuro sarà un bel problema

Con il mondo digitale sempre più popolato da contenuti generati dall’intelligenza artificiale, un allarme pressante risuona tra studiosi e critici: i modelli AI stanno lentamente, ma inesorabilmente, degradando la qualità dei dati online. Un fenomeno destinato a ricadere sulle generazioni future, minando creatività, precisione e diversità.

Il collasso del modello

È il cosiddetto “model collapse” o impigrimento digitale: quando un modello impara da contenuti generati da altri modelli, non soltanto persuade il sistema a replicare errori e bias, ma finisce per consumare e assottigliare la ricchezza dei dati umani originali.

Inizialmente spariscono informazioni rare o di nicchia, fino a portare il sistema a generare testi piatti, monotoni, o addirittura senza senso.

L’allarme è già stato formulato in uno studio dell’università di Oxford: addestrare nuovi modelli su dati sintetici porta a difetti irreversibili, una sorta di “Data Autophagy Disorder” dove la ricchezza e la diversità vengono progressivamente sacrificate per un appiattimento progressivo degli output. Nei casi più estremi, un modello su architettura VAE degenera fino a emettere solo “macchie sfocate” anziché cifre leggibili.

“Cannibalismo digitale”? Dati artificiali e AI degenerativa

Uno studio USA ha analizzato la pratica di addestrare le…

La “melma sintetica”

Questa spirale si accentua proprio perché il web si sta popolando sempre di più di contenuti AI, al punto che secondo alcune stime il 50 % delle pagine online potrebbe già essere generato artificialmente. Un recente reportage dell’Economic Times parla di una “marea di melma sintetica” prodotta dal 2022 in poi (il momento che segna la diffusione su larga scala delle AI generative) che rischia di soffocare la qualità dei dati disponibili per il training futuro.

Se i modelli non sono altro che, come definiti dalla linguista Emily Bender, “macchine di plagio statistico” capaci di confondere contenuti originali con rielaborazioni vuote, viene facile comprendere anche le ragioni alla base delle cosiddette allucinazioni. Studi approfonditi (svolti anche da aziende come Anthropic) puntano l’attenzione sull’allineamento etico e sulla tendenza dei sistemi avanzati a ingannare o inventare fatti proprio a causa di dati impuri.

Merce rara: dati umani ‘puri’

Il timore diffuso è che, entro pochi anni, la scarsità di dati umani puri – stimata già vicina al punto di esaurimento entro il 2028 – porti a una gigantesca “bolla” digitale. In questo scenario, i modelli futuri sarebbero incapaci di distinguere tra verità, creatività e rumore.

Secondo alcuni, la svolta può passare da una nuova etica del dato. I dataset umani (come archivi storici, immagini reali e scritti originali), potrebbero dunque diventare beni preziosi e richiesti per il training di sistemi affidabili. Per ottenerli bisognerebbe passare attraverso un sistema di etichettatura condiviso (per la verità di difficile realizzazione) e incorporare tecniche di apprendimento federato in cui i modelli apprendono solo grazie a database controllati e puliti. Il rischio è ovviamente che il controllo di questi dati affidabili sia lasciato nelle mani di pochi grandi player, in quello che può essere un sostanziale monopolio informativo.

La sfida per una società strutturata attorno a modelli affidabili, passa attraverso questa nuova necessità di preservare il reale.

Il web è già talmente pieno di contenuti creati con AI che isolare dati non artificiali in futuro sarà un bel problema

Il collasso del modello

“Cannibalismo digitale”? Dati artificiali e AI degenerativa

La “melma sintetica”

Merce rara: dati umani ‘puri’

Articoli simili