Un gruppo di scienziati ha dimostrato che si può creare un’AI senza rubare i dati

Ricercatori di alto livello hanno creato un'AI con un database etico che sconfessa la narrazione delle big tech.

3 min.

Un gruppo di scienziati ha dimostrato che si può creare un’AI senza rubare i dati

Nel pieno dell’acceso dibattito che accompagna l’ascesa globale dell’intelligenza artificiale — tra cause legali, accuse di plagio e una corsa al controllo dei contenuti — un gruppo indipendente di scienziati ha dimostrato che esiste una via etica per creare AI. Più difficile, certo, ma spesso in passato presentata come impossibile dai giganti delle big tech.

L’addestramento etico

Ricercatori di alto livello provenienti da università come MIT, Carnegie Mellon e l’Università di Toronto, insieme al collettivo indipendente EleutherAI, si sono riuniti per creare un modello AI che sfruttasse un database ‘etico’. La raccolta, non composta da materiale “preso in prestito” dal web, ma da testi rigorosamente liberi, aperti e legali, ha preso il nome di Common Pile v0.1.

La creazione del dataset ha richiesto mesi, ed è illustrata in un paper scientifico ancora in fase di revisione paritaria. Common Pile v0.1 è una raccolta monumentale di otto terabyte, composta esclusivamente da materiali di pubblico dominio o rilasciati con licenze aperte. Contiene documenti della Library of Congress (tra cui ben 130.000 libri in lingua inglese), articoli accademici, enciclopedie libere, testi governativi, documenti tecnici, codice e molto altro ancora. Ogni riga di testo è stata vagliata, filtrata, deduplicata, ripulita da contenuti inappropriati e il tutto è stato organizzato secondo criteri rigorosi.

Un modello competitivo

Il lavoro è stato lungo e meticoloso, perché non esiste un sistema automatico in grado di garantire con certezza che un dato contenuto sia realmente utilizzabile senza violare alcun diritto. Dunque, buona parte della verifica è stata fatta a mano, documento per documento. “Annotato manualmente alla fine della giornata“, come ha specificato la coautrice dello studio Stella Biderman, informatica e direttrice esecutiva dell’organizzazione no-profit Eleuther AI.

Il risultato ha superato ogni aspettativa. Una volta ottenuto questo corpus, i ricercatori hanno addestrato un modello che ha mostrato prestazioni paragonabili a quelle di AI ben più note (come LLaMA 2 di Meta) e ampiamente competitivo nei principali benchmark scientifici e linguistici.

Un cambio di prospettiva

L’esperimento cambia radicalmente la narrazione dominante. Le grandi aziende dell’intelligenza artificiale avevano finora sempre sostenuto che era “impraticabile” costruire modelli di alto livello senza attingere ai contenuti protetti da copyright.

Molto nota in questo senso la dichiarazione che OpenAI rilasciò nell’audizione di fronte al Communications and Digital Committee del Regno Unito nel gennaio 2024: “Poiché il copyright copre praticamente ogni tipo di espressione umana, sarebbe impossibile addestrare i principali modelli di intelligenza artificiale di oggi senza utilizzare materiali protetti dal diritto d’autore“.

È presumibile che le big tech non si impegnino su questo fronte non per un problema di fattibilità e sostenibilità generale (come spesso sostenuto), quanto per un problema di organizzazione del lavoro. La composizione del dataset ha richiesto uno sforzo non indifferente che in un’ottica aziendale si tradurrebbe in molte risorse economiche in più. L’augurio degli autori è che l’esperimento possa perlomeno aprire una breccia contribuendo virtuosamente al dibattito.

Costruire AI seguendo questo processo non è la strada più rapida, certo, ma probabilmente è quella che guarda più lontano.

A Londra parte la causa di Getty Images contro Stability AI su copyright e AI

La vicenda giudiziaria è definita da molti osservatori come storica…


Ultime news


Intel annuncia il lancio di un nuovo chip AI per il 2026

Il nuovo prodotto con cui Intel cerca di rilanciarsi nel…

Intel annuncia il lancio di un nuovo chip AI per il 2026
I vertici militari iniziano ad affidarsi a ChatGPT per prendere decisioni organizzative

Il comandante dell’8ª armata delle truppe statunitensi in Corea del…

I vertici militari iniziano ad affidarsi a ChatGPT per prendere decisioni organizzative
Morgan Stanley rassicura: i maxi investimenti in AI saranno recuperati entro il 2028

La banca d'affari statunitense sconfessa il rischio bolla e definisce…

Morgan Stanley rassicura: i maxi investimenti in AI saranno recuperati entro il 2028
Goldman Sachs punta sull’AI: previsti licenziamenti e meno assunzioni

I piani aziendali di integrazione dell'AI toccheranno diversi settori ma…

Goldman Sachs punta sull’AI: previsti licenziamenti e meno assunzioni

In Evidenza


Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano

Gli ideatori, Lucia Cenetiempo e Massimiliano Di Blasi, ci raccontano…

Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano
Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang
I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13
L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Privacy policy| Cookie policy| Cookie setting| © 2025