Il widget Text to Pokémon, basato sul modello generativo Stable Diffusion, permette di trasformare chiunque in un animaletto della Nintendo.
Internet è un luogo pieno di sorprese e il servizio Text to Pokémon ci ricorda il perché. Di recente è stata infatti realizzata un’applicazione che permette agli utenti di trasformare in Pokémon le loro celebrità preferite.
I temi trattati all’interno dell’articolo
Il widget Text to Pokémon
Il widget Text to Pokémon utilizza le fotografie presenti online per trasformare qualsiasi personaggio noto in un Pokémon. I personaggi ritratti nello stile del cartone animato giapponese sono tanto più individuabili quanto più numerose sono le immagini del soggetto presenti in rete cui il sistema può attingere.
C’è chi si sbizzarrisce con personaggi del passato, chi preferisce celebrità contemporanee e chi invece cala nel mondo degli ‘animaletti’ immaginari della Nintendo anche i protagonisti politici degli ultimi anni.
Come si può utilizzare il servizio?
Il servizio è utilizzabile gratuitamente. Per potervi accedere, si richiede soltanto una registrazione gratuita su Github e l’inserimento del nome del personaggio oggetto della metamorfosi nella voce “Prompt”. È inoltre possibile selezionare il numero delle immagini di output desiderate (fino a quattro).
La velocità di elaborazione (massimo un minuto) e la qualità dei contenuti visivi ‘sfornati’ sono sorprendenti e permettono di pensare alle future applicazioni per le quali si potrebbe utilizzare questo genere di tecnologia.
Come funziona?
Il servizio si basa sull’intelligenza artificiale open source Stable Diffusion, un modello text-to-image sviluppato da Stability AI. Questo si basa a sua volta sul lavoro del team di CompVis e Runway nel loro modello di diffusione latente, combinato con gli insights derivanti dai modelli di diffusione condizionale della sviluppatrice Katherine Crowson, da Dall-E 2 di Open AI, da Imagen di Google Brain e da molti altri.
Con questo risultato – rilasciato pubblicamente – il team di ricerca è riuscito a condensare una mole imponente di informazioni visive in pochi gigabyte, il che permette l’utilizzo da parte di chiunque e attraverso qualsiasi dispositivo.
Oggi, il modello non è ancora in grado di generare fedelmente i visi umani, i quali appaiono spesso distorti. Tuttavia, funziona molto bene – e offrendo anche una certa ‘creatività’ – con animali, ambienti e oggetti inanimati.
È possibile testare Stable Diffusion attraverso questa demo.
Have I been trained?
Perché il sistema potesse essere in grado di operare efficacemente, è stata necessaria una fase di addestramento del modello. A questo è stata infatti sottoposta una grande mole di informazioni visive. Le immagini utilizzate, in questo caso, sono state quelle reperibili online e, come anticipato sopra, maggiore è la quantità delle immagini, maggiore è l’accuratezza dell’output.
Se a essere ‘pescate’ per il training dei modelli di intelligenza artificiale possono essere le immagini caricate sul web, però, come si può sapere se una propria fotografia sia stata inclusa e macinata da un qualsiasi algoritmo? Proprio per rispondere a questa domanda, è stato sviluppato Have I been trained (letteralmente “sono stato addestrato?”). Il servizio, creato dal collettivo artistico Spawning, permette di scoprire se le proprie immagini siano state usate per addestrare un generatore di immagini basato sull’intelligenza artificiale.
Sul portale, collegato all’archivio Laion-5B (utilizzato per il miglioramento della performance di una serie di intelligenze artificiali come Stable Diffusion e Google Imagen), è possibile ricercare tramite parole chiave o caricare una delle proprie immagini. Nell’eventualità in cui sia individuato un match, è poi possibile decidere se concedere o meno l’uso dei propri contenuti per l’addestramento.
L’obiettivo di Spawning è anche quello di aiutare gli artisti e i fotografi nella tutela delle loro proprietà digitali. Ha dichiarato l’artista polacco Greg Rutkowski:
“Spawning sta costruendo strumenti per la proprietà intellettuale dei training data degli artisti, consentendo loro di accettare o rifiutare l’addestramento di grandi modelli di intelligenza artificiale, impostare autorizzazioni su come vengono utilizzati stile e somiglianza e offrire i propri modelli al pubblico. Riteniamo che ogni artista debba avere gli strumenti per prendere le proprie decisioni su come vengono utilizzati i propri dati”.
Il futuro della tecnologia
È difficile prevedere ciò che questo genere di funzione potrà diventare in futuro, ma si riescono a intravedere possibili applicazioni. Meta, per esempio, ha pubblicato la propria ricerca in merito ai sistemi text-to-video, evoluzione del text-to-image. Make-A-Video, in particolare, potrebbe rendere la generazione di contenuti creativi ancora più interessante e avanzata, permettendo agli utenti di trasformare un input testuale in un breve video di alta qualità. Il sistema è anche in grado di animare un’immagine già esistente e di immaginare il movimento intermedio che porta da un’immagine A a un’immagine B.
L’eventuale futura creazione di immagini e video realistici a partire da poche parole fa sorgere però una serie di dubbi legati a potenziali abusi dei deep fake a livello sociale.