Durante un’intervista a Reuters il Presidente degli Affari Globali di Meta Nick Clegg ha dichiarato che la big tech ha usato contenuti degli utenti presenti su Facebook e Instagram per addestrare la sua Meta AI, l’assistente personale basato sull’intelligenza artificiale che integrerà le varie app social del gruppo. Il dirigente ha precisato che la compagnia ha però “tentato” di escludere le pubblicazioni private condivise con amici e familiari nel rispetto della privacy dei consumatori.
È un’esclusione così doverosa che quasi fa impressione l’esigenza di specificarla.
La controversa origine dei dati
Clegg è comunque apparso un po’ vago nel descrivere esattamente secondo quali parametri sarebbe stato selezionato il materiale da escludere. “Abbiamo cercato – ha detto – di escludere set di dati che contengono una forte preponderanza di informazioni personali“, ha detto. Secondo il portavoce la “straordinaria maggioranza” dei dati che Meta ha usato per l’addestramento è stata selezionata tra quella pubblicamente disponibile.
I dati in questione consistono in un insieme di elementi conversazionali sotto forma di testo e immagini, sono stati estratti soprattutto dalle pubblicazioni su Facebook e Instagram. Non sarebbero state utilizzate dunque né WhatsApp né Messenger.
Meta AI è un assistente creato sintetizzando un unico sistema in due diversi modelli: il linguaggio Llama 2 (che l’azienda ha rilasciato per l’uso commerciale pubblico a luglio) e il nuovo Emu, che genera immagini in risposta a prompt di testo.
Il prodotto sarà in grado di generare testo, audio e immagini e avrà accesso a informazioni in tempo reale grazie a una partnership con il motore di ricerca Bing di Microsoft.
Chi ha l’ultima parola?
Durante le prime settimane di settembre Meta ha introdotto un modulo di nome ‘Diritti dell’interessato per l’IA generativa‘ tramite il quale gli utenti possono validare o meno il consenso per l’utilizzo dei propri dati nell’addestramento dell’AI.
Ma ciò che sembra un segnale di trasparenza è più, forse, un’esigenza di posizionamento aziendale agli occhi dei consumatori. Nello stesso modulo Facebook scrive che ‘Non soddisferà automaticamente le richieste e le esaminerà in conformità alle leggi locali’. Una formula piuttosto comoda per dichiarare che l’ultima parola sullo sfruttamento o meno dei dati resta comunque dell’azienda, che non fornisce inoltre nessuna rassicurazione in merito a quelli già raccolti in quasi vent’anni di attività.
Lo stesso vale in fondo per l’improbabile ma possibile utilizzo dei dati raccolti dalle chat private di Whatsapp o Messenger. Le dichiarazioni secondo cui l’azienda ha ‘cercato di non utilizzarne i contenuti’ non sembrano fornire prove sufficienti per assicurare che sia effettivamente così. Nessuno ha davvero la possibilità di appurarlo.
La guerra dello scraping
La tematica della raccolta di materiale da addestramento è davvero alla base di tutto ciò che riguarda lo sviluppo delle AI nell’immediato futuro. La legittimità o meno della tecnica dello scraping è al centro di questo dibattito.
Di recente, proprio come Meta qualche mese fa, anche Bard di Google ha dato agli sviluppatori dei siti la possibilità di bloccare lo scraping indiscriminato inserendo manualmente un’opzione nel robots.txt.
Non è un caso che le aziende che propongono l’utilizzo di questi blocchi sono quelle che in effetti, almeno in questa fase della crescita del settore AI, non hanno poi così tanto bisogno di nuovi dati: negli ultimi due decenni ne hanno già raccolta una quantità più che considerevole.
C’è chi inizia a rendersi conto anzi che i dati sono talmente preziosi che non possono essere ceduti gratis. Di recente il New York Times ha espressamente diffidato OpenAI dall’utilizzare i suoi dati gratuitamente e ha parallelamente aperto un dialogo commerciale con Google.
Certo, vi sono poi aziende che non si pongono nemmeno troppo il problema della trasparenza. L’alveare di aziende di Musk è un esempio. Specialmente dopo l’acquisizione di Twitter/X, di cui tra poco ricorrerà il primo anniversario, gli interrogativi sull’utilizzo da parte del CEO di Tesla dei tantissimi dati degli utenti che si interfacciano con i suoi servizi si moltiplicano.
Le incognite del copyright
C’è poi lo spinoso tema del copyright. Stando alle parole di Clegg non si può dire che le grandi compagnie abbiano del tutto le idee chiare sui diversi scenari all’orizzonte. Clegg ha dichiarato che l’azienda ha imposto restrizioni sulla sicurezza per i contenuti generati da Meta AI, nel caso l’algoritmo creasse ad esempio immagini fotorealistiche di personaggi pubblici sfruttando illegalmente la loro immagine.
Ma egli stesso ha lasciato intendere che Meta non una vera e propria ricetta per contrastare in toto gli eventuali problemi di copyright causati dall’AI. Tanto che l’azienda si aspetta “Un buon numero di cause” . Tutto dipende dall’eventuale copertura dei contenuti creativi nelle “dottrine dell’uso lecito esistente“; il tema rimane aperto e interpretabile.
“Sospetto fortemente che verrà affrontato attraverso azioni legali“, ha detto Clegg. Insomma, la compagnia ammette tranquillamente che quello del diritto d’autore in ambito AI è un tema che sarà affrontato solo man mano che inizierà a causare dispute vere e proprie.
Normare dopo ma mai prima: la mentalità della Silicon Valley non si smentisce.