I ricercatori di Amazon hanno annunciato un nuovo modello di sintesi vocale, chiamato BASE TTS, che segna un enorme passo in avanti nel realismo e nella versatilità della voce sintetica.
Grazie alle sue dimensioni senza precedenti – 100.000 ore di registrazioni audio per addestrare la versione più grande da 980 milioni di parametri – il modello mostra quelle che vengono definite “abilità emergenti”: capacità che vanno al di là di ciò per cui è stato direttamente addestrato.
Il modello text-to-speech sviluppato dal colosso dell’e-commerce è inoltre disponibile in altre due dimensioni: 400 e 150 milioni, addestrate rispettivamente con 10.000 e 1.000 ore di contenuti audio.

Le capacità del nuovo modello
Il modello BASE TTS sarebbe in grado di gestire testi linguisticamente complessi in modo sorprendentemente naturale. Riuscirebbe a pronunciare parole e frasi lunghe e complicate, applicare la giusta enfasi emotiva, gestire fenomeni come i sussurri e interpretare correttamente punteggiatura e simboli.
Oltre alla qualità e alla superiorità rispetto ai modelli precedenti, i ricercatori hanno progettato BASE TTS per essere “streamable”, ossia capace di generare l’audio in tempo reale a un bitrate contenuto. Questo lo rende adatto a un’ampia gamma di applicazioni in cui la voce sintetica deve essere realistica ed espressiva.
- Ulteriori informazioni nel paper presentato dai ricercatori.