Trends

News - Trend trimestrale

Volume trimestrale

... ..%

Volume semestrale

... ..%

Amazon migliora la sintesi vocale con un nuovo modello text-to-speech

2 minuti

Paolo Marinoni 23 Febbraio 2024
2 minuti

I ricercatori di Amazon hanno annunciato un nuovo modello di sintesi vocale, chiamato BASE TTS, che segna un enorme passo in avanti nel realismo e nella versatilità della voce sintetica.

Grazie alle sue dimensioni senza precedenti – 100.000 ore di registrazioni audio per addestrare la versione più grande da 980 milioni di parametri – il modello mostra quelle che vengono definite “abilità emergenti”: capacità che vanno al di là di ciò per cui è stato direttamente addestrato.

Il modello text-to-speech sviluppato dal colosso dell’e-commerce è inoltre disponibile in altre due dimensioni: 400 e 150 milioni, addestrate rispettivamente con 10.000 e 1.000 ore di contenuti audio.

Amazon migliora la sintesi vocale con un nuovo modello text-to-speech
Tabella comparativa tratta dal paper “BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data”

Le capacità del nuovo modello

Il modello BASE TTS sarebbe in grado di gestire testi linguisticamente complessi in modo sorprendentemente naturale. Riuscirebbe a pronunciare parole e frasi lunghe e complicate, applicare la giusta enfasi emotiva, gestire fenomeni come i sussurri e interpretare correttamente punteggiatura e simboli.

Oltre alla qualità e alla superiorità rispetto ai modelli precedenti, i ricercatori hanno progettato BASE TTS per essere “streamable”, ossia capace di generare l’audio in tempo reale a un bitrate contenuto. Questo lo rende adatto a un’ampia gamma di applicazioni in cui la voce sintetica deve essere realistica ed espressiva.


In Evidenza


Quando le relazioni sono artificiali

Da un partner virtuale a una conversazione con una persona…

Chi fermerà l’AI? Riflessione sull’appello di Musk

Elon Musk e altri mille esperti chiedono una pausa di…

Elon Musk e altri mille esperti: “Allarme intelligenza artificiale”

Elon Musk e altri mille esperti hanno chiesto di sospendere…

Microsoft 365 Copilot, un’AI generativa per la produttività

Microsoft ha lanciato 365 Copilot, un servizio di intelligenza artificiale…

OpenAI rilascia GPT-4, più potente e multimodale

GPT-4 è arrivato. Un modello multimodale e con 100 trilioni…