Un gruppo di scienziati ha dimostrato che si può creare un’AI senza rubare i dati

Nel pieno dell’acceso dibattito che accompagna l’ascesa globale dell’intelligenza artificiale — tra cause legali, accuse di plagio e una corsa al controllo dei contenuti — un gruppo indipendente di scienziati ha dimostrato che esiste una via etica per creare AI. Più difficile, certo, ma spesso in passato presentata come impossibile dai giganti delle big tech.

L’addestramento etico

Ricercatori di alto livello provenienti da università come MIT, Carnegie Mellon e l’Università di Toronto, insieme al collettivo indipendente EleutherAI, si sono riuniti per creare un modello AI che sfruttasse un database ‘etico’. La raccolta, non composta da materiale “preso in prestito” dal web, ma da testi rigorosamente liberi, aperti e legali, ha preso il nome di Common Pile v0.1.

La creazione del dataset ha richiesto mesi, ed è illustrata in un paper scientifico ancora in fase di revisione paritaria. Common Pile v0.1 è una raccolta monumentale di otto terabyte, composta esclusivamente da materiali di pubblico dominio o rilasciati con licenze aperte. Contiene documenti della Library of Congress (tra cui ben 130.000 libri in lingua inglese), articoli accademici, enciclopedie libere, testi governativi, documenti tecnici, codice e molto altro ancora. Ogni riga di testo è stata vagliata, filtrata, deduplicata, ripulita da contenuti inappropriati e il tutto è stato organizzato secondo criteri rigorosi.

Un modello competitivo

Il lavoro è stato lungo e meticoloso, perché non esiste un sistema automatico in grado di garantire con certezza che un dato contenuto sia realmente utilizzabile senza violare alcun diritto. Dunque, buona parte della verifica è stata fatta a mano, documento per documento. “Annotato manualmente alla fine della giornata“, come ha specificato la coautrice dello studio Stella Biderman, informatica e direttrice esecutiva dell’organizzazione no-profit Eleuther AI.

Il risultato ha superato ogni aspettativa. Una volta ottenuto questo corpus, i ricercatori hanno addestrato un modello che ha mostrato prestazioni paragonabili a quelle di AI ben più note (come LLaMA 2 di Meta) e ampiamente competitivo nei principali benchmark scientifici e linguistici.

Un cambio di prospettiva

L’esperimento cambia radicalmente la narrazione dominante. Le grandi aziende dell’intelligenza artificiale avevano finora sempre sostenuto che era “impraticabile” costruire modelli di alto livello senza attingere ai contenuti protetti da copyright.

Molto nota in questo senso la dichiarazione che OpenAI rilasciò nell’audizione di fronte al Communications and Digital Committee del Regno Unito nel gennaio 2024: “Poiché il copyright copre praticamente ogni tipo di espressione umana, sarebbe impossibile addestrare i principali modelli di intelligenza artificiale di oggi senza utilizzare materiali protetti dal diritto d’autore“.

È presumibile che le big tech non si impegnino su questo fronte non per un problema di fattibilità e sostenibilità generale (come spesso sostenuto), quanto per un problema di organizzazione del lavoro. La composizione del dataset ha richiesto uno sforzo non indifferente che in un’ottica aziendale si tradurrebbe in molte risorse economiche in più. L’augurio degli autori è che l’esperimento possa perlomeno aprire una breccia contribuendo virtuosamente al dibattito.

Costruire AI seguendo questo processo non è la strada più rapida, certo, ma probabilmente è quella che guarda più lontano.