Le macchine sembrano essere in grado di parlare più chiaramente degli esseri umani. Un nuovo studio pubblicato sul Journal of the Acoustical Society of America da Patti Adank, dell’University College London, e Han Wang, dell’Università di Roehampton, ha dimostrato in maniera inaspettata che i cloni vocali generati dall’intelligenza artificiale sono più comprensibili delle voci umane originali, soprattutto in ambienti rumorosi.
I cloni vocali sono una tecnologia relativamente nuova che si distingue dalle voci sintetiche tradizionali, come quella di Siri o Alexa. Mentre sistemi come Siri richiedono a un doppiatore ore di registrazione in studio, un clone vocale può essere creato a partire da soli dieci secondi di parlato, aprendo la strada a un numero molto più ampio di applicazioni. I ricercatori hanno fatto ascoltare a gruppi di volontari frasi pronunciate sia da voci umane sia dai rispettivi cloni digitali, in condizioni di rumore di fondo. In tutti i casi testati, variando accento, età e persino simulando l’udito attraverso un impianto cocleare, le voci clonate hanno sempre vinto.
Il dato più sorprendente? La professoressa Adank ha dichiarato: “Pensavo inizialmente che i cloni vocali sarebbero stati meno intelligibili perché poco familiari. Ho scoperto invece che erano fino al 20% più comprensibili, il che mi ha davvero sconvolto”.
L’elemento più curioso riguarda però il fatto che gli scienziati non sono ancora in grado di spiegare perché questo accade. La ricerca apre nuovi interrogativi sulle dimensioni acustiche e cognitive della chiarezza del parlato sintetico, con importanti implicazioni per la telefonia, l’accessibilità e i sistemi di assistenza vocale del futuro.

Mistral AI ha rilasciato un nuovo modello open-source per la sintesi vocale AI
Si chiama Voxtral TTS e supporta nove lingue














