Uno youtuber inglese ha clonato virtualmente il suo co-host e ne ha utilizzato l’avatar per diverse applicazioni. La ‘facilità’ di realizzazione di un deep fake estremamente realistico fa riflettere e pone una serie di interrogativi.
Josh Carrott e Ollie Kendal sono un duo di youtuber noti per due canali molto seguiti sulla piattaforma di video streaming: 영국남자 Korean Englishman e Jolly. Il secondo, gestito prevalentemente da Kendal, ha visto la recente pubblicazione di due video dedicati all’intelligenza artificiale.
In particolare, Ollie ha deciso di creare una versione virtuale (un avatar) di Josh a sua insaputa, utilizzandone l’immagine e la voce in diversi progetti. Due video leggeri, che dimostrano però delle applicazioni molto concrete dell’AI. Applicazioni che fanno anche sorgere dubbi in relazione ai potenziali rischi sociali dei deepfake.
I temi trattati all’interno dell’articolo
La creazione della versione virtuale di Josh
Nella sua impresa, Ollie ha richiesto i servizi di Synthesia, una società specializzata nella creazione di avatar AI. Inizialmente, lo youtuber ha registrato Carrott mentre leggeva un copione davanti a uno sfondo verde. Partendo solamente da questo filmato, la società è riuscita a creare, utilizzando i suoi algoritmi di machine learning, una replica digitale di Josh in grado di riprodurre qualsiasi parola e frase.
La voce associata all’avatar era però una di quelle standard presenti nel database della società. Per rendere il prodotto più realistico, Ollie ha quindi contattato un’altra società, Descript, specializzata nell’editing di audio e video. Utilizzando delle vecchie registrazioni audio di Josh, è stato così possibile ottenere un software text-to-speech in grado di riprodurre qualsiasi frase con una voce sintetizzata molto simile a quella di Josh.
Attraverso l’interfaccia di Descript, Kendal ha poi connesso l’audio prodotto da Descript con il video prodotto da Synthesia, ottenendo una replica molto credibile di Josh utilizzabile per la registrazione di video.
Ollie ha poi utilizzato l’avatar per creare un hub che include diverse funzionalità. La replica AI di Josh può infatti:
- dire l’orario
- dire com’è il tempo (attraverso le parole di diverse canzoni selezionate)
- offrire informazioni random
- raccontare barzellette
- ispirare il visitatore con una frase motivazionale (ironica).
Per quanto l’uso fatto dell’avatar in questo caso sia totalmente a fini di intrattenimento, le potenziali applicazioni di questo genere di tecnologie di deepfake sono illimitate. È infatti possibile far dire e/o fare alla persona replicata qualsiasi cosa a partire da pochi contenuti audio e video.
La registrazione di un audiolibro
Ma Ollie non si è fermato qui. Lo YouTuber, infatti, ha utilizzato la voce AI di Josh per registrare un intero audiolibro, facendo di Josh la prima persona nella storia ad avere inconsapevolmente letto, registrato e pubblicato un audiobook.
La differenza, in questo caso, sta nella tecnologia di AI impiegata. Mentre il sistema utilizzato per la creazione dell’avatar era di text-to-speech (ossia una funzione che trasforma un contenuto testuale in audio), quello utilizzato per l’audiolibro parte da un input sonoro. Ollie ha infatti letto un libro ‘di Josh’ – anch’esso scritto in passato all’insaputa del co-YouTuber – registrando la propria voce e trasformandola successivamente in quella di Carrott.
Tutto è stato reso possibile dai software di Respeecher, una società ucraina specializzata nella clonazione vocale per creatori di contenuti per il web, per la televisione e per il cinema. Respeecher, in particolare, clona le voci convertendo ogni singola parola e addestrando una rete neurale alla conversione di una voce verso il timbro target. Tutti i proventi dell’audiolibro verranno indirizzati a Unicef Ukraine.
A cosa serve un deepfake?
Ollie ha rivelato come la voce sintetizzata gli sia stata utile anche in fase di editing dei video dell’altro loro canale YouTube, Korean Englishman. In alcune scene, infatti, Ollie ha aggiunto o ri-registrato la voce di Josh per correggere degli errori o per renderla più chiara. E nessuno, né gli iscritti al canale né lo stesso Josh, se n’era accorto.
Queste tecnologie di deepfake audiovisivo possono essere utilizzate in diversi ambiti e da diverse tipologie di persone. Sia da content creator, sia da grandi società che intendono registrare video formativi per i loro dipendenti o video promozionali per i loro clienti, magari utilizzando l’immagine e la voce del loro ceo.
Le applicazioni sono quindi molteplici, ma la credibilità dei contenuti creati fa sorgere dubbi in merito a loro eventuali utilizzi negativi.
Rischi e implicazioni etiche dei deepfake
Quando le tecnologie di deepfake sono utilizzate con il consenso della persona replicata per scopi positivi e innocui – come quelli raccontati nel presente articolo – il problema della loro realizzazione non si pone. Succede però che determinati soggetti realizzino deepfake di personaggi pubblici, talvolta anche politici, per attribuire loro affermazioni che possono anche avere ripercussioni sociali e/o politiche.
Si pensi ai deepfake generati nel contesto della guerra russo-ucraina. Una situazione instabile che potrebbe ulteriormente degenerare sulla base di dichiarazioni non diplomatiche di un leader politico. Per fortuna, le tecnologie a disposizione della maggior parte delle persone non sono ancora tanto avanzate da far risultare il prodotto credibile, ma l’intelligenza artificiale si sta sviluppando molto rapidamente. Il rischio che i deepfake possano essere scambiati per la persona reale aumenta dunque con il progredire della tecnologia.