Il New York Times impedirà che i suoi dati e contenuti vengano utilizzati per addestrare modelli di intelligenza artificiale, perlomeno gratuitamente. Lo riportano The Verge e Adweek: l’aggiornamento dei Termini di Servizio della testata è avvenuto il 3 agosto.
I temi trattati all’interno dell’articolo
I nuovi Termini
I contenuti bloccati alle AI includono davvero tutto: testi, fotografie, immagini, clip audio e video, metadati, compilazioni, perfino le interfacce grafiche del sito. Lo sfruttamento dati sarà proibito non solo per l’addestramento dei sistemi di apprendimento automatico o intelligenza artificiale ma per “qualsiasi programma software”.
La revisione dei Termini di Servizio arriva con un tempismo certo non casuale. Proprio in questi giorni OpenAI ha lanciato un nuovo modello di web crawler per raccogliere dati nell’addestramento di quella che probabilmente sarà ChatGPT-5. La stessa azienda ha invitato i siti a impedirne l’accesso se non gradito, tramite una semplice modifica di poche righe al file robots.txt, quello che informa i crawler dei motori di ricerca quali URL possono essere accessibili.
Nessuna modifica al file del sito
È degno di nota proprio il fatto che, nonostante l’introduzione delle nuove regole nella politica del NYT, non risulti attualmente alcuna modifica al file robots.txt nel sito della testata. I nuovi Termini si premurano solo di specificare che strumenti automatizzati progettati per utilizzare, accedere o raccogliere contenuti non possono essere utilizzati senza il permesso scritto della pubblicazione. Rifiutarsi di conformarsi a queste nuove restrizioni potrebbe comportare multe o penalità non specificate.
Anche Google potrebbe avere un ruolo in questo posizionamento della testata americana. Di recente l’azienda ha aggiornato la propria politica sulla privacy in un modo simile a OpenAI per raccogliere dati pubblici dal web e addestrare i suoi vari servizi di intelligenza artificiale, come Bard o Cloud AI.
Una sfida aperta alle tech company?
Tutti i grandi modelli linguistici che alimentano servizi AI popolari sono spesso addestrati su set di dati che potrebbero contenere materiale protetto da copyright o comunque ottenuto dal web senza un vero e proprio permesso dagli autori originali.
In sostanza la testata sembra in aperta polemica con questa forzatura. Le aziende tech AI premono per impostare una routine normativa che preveda che siano i siti stessi ad attivarsi per impedire che i loro dati vengano utilizzati, un modo comodo per aggirare ‘morbidamente’ le regole sulla privacy. Il NYT sembra premere per il contrario, pretendendo il diritto acquisito che i propri dati non siano utilizzati da terzi senza necessità di ottenere un permesso preventivo.
Verso gli accordi commerciali
Potrebbe sembrare in apparente contraddizione il fatto che il NYT abbia firmato un accordo da 100 milioni di dollari con la stessa Google lo scorso febbraio, che consentirà al colosso delle ricerche di presentare contenuti del Times su alcune delle sue piattaforme nei prossimi tre anni. Entrambe le aziende collaboreranno su strumenti per la distribuzione di contenuti, abbonamenti, marketing, pubblicità e ‘sperimentazione’ (ossia AI). A ben vedere però l’accordo commerciale rafforza la posizione del giornale: il Times dimostra di non essere a prescindere contro l’uso dei dati per addestramenti AI, ma solo contro la cessione gratuita.
Un’indiscrezione suggerisce in effetti che la testata starebbe trattando l’uso dei propri dati anche con altre aziende, valutando di volta in volta.
Quello del NYT è un caso interessante, che potrebbe diventare emblematico per un trend virtuoso. Le aziende tech non hanno mai avuto bisogno di dati come durante questa corsa all’oro dell’AI e una testata così importante che decide di venderli anziché ‘concederli’ è un segnale di grande rilevanza.
All’inizio di questo mese, diverse organizzazioni di notizie, tra cui The Associated Press e il Consiglio Europeo degli Editori, hanno firmato una lettera aperta in cui chiedevano ai legislatori globali di introdurre regole che richiedessero trasparenza nei set di dati di addestramento e il consenso dei titolari dei diritti prima dell’uso dei dati per l’addestramento.