YouTube e deep fake: l’esperimento di un creator

Paolo Marinoni 7 Ottobre 2022

6 minuti

Uno youtuber inglese ha clonato virtualmente il suo co-host e ne ha utilizzato l’avatar per diverse applicazioni. La ‘facilità’ di realizzazione di un deep fake estremamente realistico fa riflettere e pone una serie di interrogativi.  

Josh Carrott e Ollie Kendal sono un duo di youtuber noti per due canali molto seguiti sulla piattaforma di video streaming: 영국남자 Korean Englishman e Jolly. Il secondo, gestito prevalentemente da Kendal, ha visto la recente pubblicazione di due video dedicati all’intelligenza artificiale.  

In particolare, Ollie ha deciso di creare una versione virtuale (un avatar) di Josh a sua insaputa, utilizzandone l’immagine e la voce in diversi progetti. Due video leggeri, che dimostrano però delle applicazioni molto concrete dell’AI. Applicazioni che fanno anche sorgere dubbi in relazione ai potenziali rischi sociali dei deep fake.

La creazione della versione virtuale di Josh 

Nella sua impresa, Ollie ha richiesto i servizi di Synthesia, una società specializzata nella creazione di avatar AI. Inizialmente, lo youtuber ha registrato Carrott mentre leggeva un copione davanti a uno sfondo verde. Partendo solamente da questo filmato, la società è riuscita a creare, utilizzando i suoi algoritmi di machine learning, una replica digitale di Josh in grado di riprodurre qualsiasi parola e frase.  

La voce associata all’avatar era però una di quelle standard presenti nel database della società. Per rendere il prodotto più realistico, Ollie ha quindi contattato un’altra società, Descript, specializzata nell’editing di audio e video. Utilizzando delle vecchie registrazioni audio di Josh, è stato così possibile ottenere un software text-to-speech in grado di riprodurre qualsiasi frase con una voce sintetizzata molto simile a quella di Josh.  

Attraverso l’interfaccia di Descript, Kendal ha poi connesso l’audio prodotto da Descript con il video prodotto da Synthesia, ottenendo una replica molto credibile di Josh utilizzabile per la registrazione di video.  

Ollie ha poi utilizzato l’avatar per creare un hub che include diverse funzionalità. La replica AI di Josh può infatti:  

Per quanto l’uso fatto dell’avatar in questo caso sia totalmente a fini di intrattenimento, le potenziali applicazioni di questo genere di tecnologie di deep fake sono illimitate. È infatti possibile far dire e/o fare alla persona replicata qualsiasi cosa a partire da pochi contenuti audio e video.   

La registrazione di un audiolibro

Ma Ollie non si è fermato qui. Lo YouTuber, infatti, ha utilizzato la voce AI di Josh per registrare un intero audiolibro, facendo di Josh la prima persona nella storia ad avere inconsapevolmente letto, registrato e pubblicato un audiobook.  

La differenza, in questo caso, sta nella tecnologia di AI impiegata. Mentre il sistema utilizzato per la creazione dell’avatar era di text-to-speech (ossia una funzione che trasforma un contenuto testuale in audio), quello utilizzato per l’audiolibro parte da un input sonoro. Ollie ha infatti letto un libro ‘di Josh’ – anch’esso scritto in passato all’insaputa del co-YouTuber – registrando la propria voce e trasformandola successivamente in quella di Carrott.  

Tutto è stato reso possibile dai software di Respeecher, una società ucraina specializzata nella clonazione vocale per creatori di contenuti per il web, per la televisione e per il cinema. Respeecher, in particolare, clona le voci convertendo ogni singola parola e addestrando una rete neurale alla conversione di una voce verso il timbro target. Tutti i proventi dell’audiolibro verranno indirizzati a Unicef Ukraine.

A cosa serve un deep fake?

Ollie ha rivelato come la voce sintetizzata gli sia stata utile anche in fase di editing dei video dell’altro loro canale YouTube, Korean Englishman. In alcune scene, infatti, Ollie ha aggiunto o ri-registrato la voce di Josh per correggere degli errori o per renderla più chiara. E nessuno, né gli iscritti al canale né lo stesso Josh, se n’era accorto.  

Queste tecnologie di deep fake audiovisivo possono essere utilizzate in diversi ambiti e da diverse tipologie di persone. Sia da content creator, sia da grandi società che intendono registrare video formativi per i loro dipendenti o video promozionali per i loro clienti, magari utilizzando l’immagine e la voce del loro ceo.  

Le applicazioni sono quindi molteplici, ma la credibilità dei contenuti creati fa sorgere dubbi in merito a loro eventuali utilizzi negativi.

Rischi e implicazioni etiche dei deep fake 

Quando le tecnologie di deep fake sono utilizzate con il consenso della persona replicata per scopi positivi e innocui – come quelli raccontati nel presente articolo – il problema della loro realizzazione non si pone. Succede però che determinati soggetti realizzino deep fake di personaggi pubblici, talvolta anche politici, per attribuire loro affermazioni che possono anche avere ripercussioni sociali e/o politiche.

Si pensi ai deep fake generati nel contesto della guerra russo-ucraina. Una situazione instabile che potrebbe ulteriormente degenerare sulla base di dichiarazioni non diplomatiche di un leader politico. Per fortuna, le tecnologie a disposizione della maggior parte delle persone non sono ancora tanto avanzate da far risultare il prodotto credibile, ma l’intelligenza artificiale si sta sviluppando molto rapidamente. Il rischio che i deep fake possano essere scambiati per la persona reale aumenta dunque con il progredire della tecnologia.


Articoli simili

OpenAI ha reso open-source il codice di Point-E, un sistema di generazione di immagini 3D a partire da un input testuale.
28 Dicembre 2022

Il widget Text to Pokémon, basato sul modello generativo Stable Diffusion di Stability AI, permette di trasformare chiunque in un animaletto della Nintendo.
11 Ottobre 2022

Molte sono le applicazioni dell'intelligenza artificiale nel mondo del cinema, dall'animazione alla clonazione vocale. L’AI permette quindi ai registi di sviluppare al meglio idee e…
16 Settembre 2022

I tessuti smart sono materiali intelligenti usati nel settore fashion, ma anche per la prevenzione degli infortuni sul lavoro.
17 Agosto 2022

Molte serie tv hanno rappresentato il tema dell’intelligenza artificiale. Queste 10 sono tra le più amate dal pubblico.
26 Luglio 2022

In Evidenza


Cosa sono i Big Data? 

I nostri dati vengono continuamente raccolti e rappresentano un asset…

I reati nel metaverso: quali possono essere commessi? 

I reati possono essere commessi anche nel metaverso e questi…

Il chatbot di Google è realmente senziente?

Un ingegnere di Google ha dichiarato che il modello conversazionale…

Come si crea un algoritmo di machine learning?

Lo sviluppo di un algoritmo di machine learning è un…

Il timore di un AI takeover: opinioni e prospettive future

Dalla finzione alla realtà. Il timore di un AI takeover…