Amazon migliora la sintesi vocale con un nuovo modello text-to-speech

Amazon BASE TTS è stato addestrato con 100.000 ore di audio, conta 980 milioni di parametri e mostrerebbe "abilità emergenti".

2 min.

I ricercatori di Amazon hanno annunciato un nuovo modello di sintesi vocale, chiamato BASE TTS, che segna un enorme passo in avanti nel realismo e nella versatilità della voce sintetica.

Grazie alle sue dimensioni senza precedenti – 100.000 ore di registrazioni audio per addestrare la versione più grande da 980 milioni di parametri – il modello mostra quelle che vengono definite “abilità emergenti”: capacità che vanno al di là di ciò per cui è stato direttamente addestrato.

Il modello text-to-speech sviluppato dal colosso dell’e-commerce è inoltre disponibile in altre due dimensioni: 400 e 150 milioni, addestrate rispettivamente con 10.000 e 1.000 ore di contenuti audio.

Amazon migliora la sintesi vocale con un nuovo modello text-to-speech
Tabella comparativa tratta dal paper “BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data”

Le capacità del nuovo modello

Il modello BASE TTS sarebbe in grado di gestire testi linguisticamente complessi in modo sorprendentemente naturale. Riuscirebbe a pronunciare parole e frasi lunghe e complicate, applicare la giusta enfasi emotiva, gestire fenomeni come i sussurri e interpretare correttamente punteggiatura e simboli.

Oltre alla qualità e alla superiorità rispetto ai modelli precedenti, i ricercatori hanno progettato BASE TTS per essere “streamable”, ossia capace di generare l’audio in tempo reale a un bitrate contenuto. Questo lo rende adatto a un’ampia gamma di applicazioni in cui la voce sintetica deve essere realistica ed espressiva.


Ultime news


Data center nello spazio? Secondo Jeff Bezos è possibile

L'idea promossa da Bezos sta prendendo piede in tutto il…

Google ha lanciato la piattaforma Gemini Enterprise per le aziende

L'applicazione permette ai dipendenti, fra le altre cose, di creare…

L’ex premier britannico Sunak assumerà ruoli di consulenza in Microsoft e Anthropic

Le attività di Sunak saranno fortemente attenzionate da un ente…

L’imperialismo digitale di Israele e altre storie generative | Weekly AI

Weekly AI è la rassegna settimanale di AI news sulle…

In Evidenza


Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano

Gli ideatori, Lucia Cenetiempo e Massimiliano Di Blasi, ci raccontano…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

Privacy policy| Cookie policy| Cookie setting| © 2025

Exit mobile version