Un gruppo di scienziati ha dimostrato che si può creare un’AI senza rubare i dati

Ricercatori di alto livello hanno creato un'AI con un database etico che sconfessa la narrazione delle big tech.

3 min.

Un gruppo di scienziati ha dimostrato che si può creare un’AI senza rubare i dati

Nel pieno dell’acceso dibattito che accompagna l’ascesa globale dell’intelligenza artificiale — tra cause legali, accuse di plagio e una corsa al controllo dei contenuti — un gruppo indipendente di scienziati ha dimostrato che esiste una via etica per creare AI. Più difficile, certo, ma spesso in passato presentata come impossibile dai giganti delle big tech.

L’addestramento etico

Ricercatori di alto livello provenienti da università come MIT, Carnegie Mellon e l’Università di Toronto, insieme al collettivo indipendente EleutherAI, si sono riuniti per creare un modello AI che sfruttasse un database ‘etico’. La raccolta, non composta da materiale “preso in prestito” dal web, ma da testi rigorosamente liberi, aperti e legali, ha preso il nome di Common Pile v0.1.

La creazione del dataset ha richiesto mesi, ed è illustrata in un paper scientifico ancora in fase di revisione paritaria. Common Pile v0.1 è una raccolta monumentale di otto terabyte, composta esclusivamente da materiali di pubblico dominio o rilasciati con licenze aperte. Contiene documenti della Library of Congress (tra cui ben 130.000 libri in lingua inglese), articoli accademici, enciclopedie libere, testi governativi, documenti tecnici, codice e molto altro ancora. Ogni riga di testo è stata vagliata, filtrata, deduplicata, ripulita da contenuti inappropriati e il tutto è stato organizzato secondo criteri rigorosi.

Un modello competitivo

Il lavoro è stato lungo e meticoloso, perché non esiste un sistema automatico in grado di garantire con certezza che un dato contenuto sia realmente utilizzabile senza violare alcun diritto. Dunque, buona parte della verifica è stata fatta a mano, documento per documento. “Annotato manualmente alla fine della giornata“, come ha specificato la coautrice dello studio Stella Biderman, informatica e direttrice esecutiva dell’organizzazione no-profit Eleuther AI.

Il risultato ha superato ogni aspettativa. Una volta ottenuto questo corpus, i ricercatori hanno addestrato un modello che ha mostrato prestazioni paragonabili a quelle di AI ben più note (come LLaMA 2 di Meta) e ampiamente competitivo nei principali benchmark scientifici e linguistici.

Un cambio di prospettiva

L’esperimento cambia radicalmente la narrazione dominante. Le grandi aziende dell’intelligenza artificiale avevano finora sempre sostenuto che era “impraticabile” costruire modelli di alto livello senza attingere ai contenuti protetti da copyright.

Molto nota in questo senso la dichiarazione che OpenAI rilasciò nell’audizione di fronte al Communications and Digital Committee del Regno Unito nel gennaio 2024: “Poiché il copyright copre praticamente ogni tipo di espressione umana, sarebbe impossibile addestrare i principali modelli di intelligenza artificiale di oggi senza utilizzare materiali protetti dal diritto d’autore“.

È presumibile che le big tech non si impegnino su questo fronte non per un problema di fattibilità e sostenibilità generale (come spesso sostenuto), quanto per un problema di organizzazione del lavoro. La composizione del dataset ha richiesto uno sforzo non indifferente che in un’ottica aziendale si tradurrebbe in molte risorse economiche in più. L’augurio degli autori è che l’esperimento possa perlomeno aprire una breccia contribuendo virtuosamente al dibattito.

Costruire AI seguendo questo processo non è la strada più rapida, certo, ma probabilmente è quella che guarda più lontano.

A Londra parte la causa di Getty Images contro Stability AI su copyright e AI

La vicenda giudiziaria è definita da molti osservatori come storica…


Ultime news


OpenAI ha acquisito Neptune, una startup di strumenti per l’addestramento di modelli AI

Si tratta della seconda acquisizione in pochi giorni da parte…

OpenAI ha acquisito Neptune, una startup di strumenti per l’addestramento di modelli AI
Anthropic pianifica di quotarsi in borsa già nel corso del 2026

Il prossimo anno l'azienda stima di raggiungere 26 miliardi di…

Anthropic pianifica di quotarsi in borsa già nel corso del 2026
Mediaset contro Perplexity per l’uso dei dati: prima causa italiana tra colossi media e big tech AI

RTI e Medusa Film, entrambe controllate da Mediaset, hanno depositato…

Mediaset contro Perplexity per l’uso dei dati: prima causa italiana tra colossi media e big tech AI
Meta, in arrivo un’indagine antitrust dell’Unione europea per l’introduzione dell’AI su WhatsApp

Secondo le autorità europee l'integrazione delle funzioni AI su WhatsApp…

Meta, in arrivo un’indagine antitrust dell’Unione europea per l’introduzione dell’AI su WhatsApp

Privacy policy| Cookie policy| Cookie setting| © 2025