Editoria & Media
Etica
Finanza
Governance
Istruzione
Legal
Difesa
Sanità
Altri temi

Amazon migliora la sintesi vocale con un nuovo modello text-to-speech

Amazon BASE TTS è stato addestrato con 100.000 ore di audio, conta 980 milioni di parametri e mostrerebbe "abilità emergenti".

Mercato - Pillole AI Paolo Marinoni 23 feb 2024

2 min.

Mercato - Pillole AI

Paolo Marinoni 23 feb 2024

Seguici su Google News

2 minuti

I ricercatori di Amazon hanno annunciato un nuovo modello di sintesi vocale, chiamato BASE TTS, che segna un enorme passo in avanti nel realismo e nella versatilità della voce sintetica.

Grazie alle sue dimensioni senza precedenti – 100.000 ore di registrazioni audio per addestrare la versione più grande da 980 milioni di parametri – il modello mostra quelle che vengono definite “abilità emergenti”: capacità che vanno al di là di ciò per cui è stato direttamente addestrato.

Il modello text-to-speech sviluppato dal colosso dell’e-commerce è inoltre disponibile in altre due dimensioni: 400 e 150 milioni, addestrate rispettivamente con 10.000 e 1.000 ore di contenuti audio.

Tabella comparativa tratta dal paper “BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data”

Amazon migliora la sintesi vocale con un nuovo modello text-to-speech — Tabella comparativa tratta dal paper “BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data”

Le capacità del nuovo modello

Il modello BASE TTS sarebbe in grado di gestire testi linguisticamente complessi in modo sorprendentemente naturale. Riuscirebbe a pronunciare parole e frasi lunghe e complicate, applicare la giusta enfasi emotiva, gestire fenomeni come i sussurri e interpretare correttamente punteggiatura e simboli.

Oltre alla qualità e alla superiorità rispetto ai modelli precedenti, i ricercatori hanno progettato BASE TTS per essere “streamable”, ossia capace di generare l’audio in tempo reale a un bitrate contenuto. Questo lo rende adatto a un’ampia gamma di applicazioni in cui la voce sintetica deve essere realistica ed espressiva.

Ulteriori informazioni nel paper presentato dai ricercatori.

Articoli simili

Sora vola nei download e supera ChatGPT ad una settimana dal lancio sul mercato

A differenza di ChatGPT Sora è disponibile anche in Canada, ma l'accesso è possibile solo su invito

continua...

Anthropic aprirà la sua prima sede in India nel 2026

La società di Claude insegue OpenAI, che già conta una filiale nel Paese

continua...

OpenAI fissa ancora lo standard: ecco AgentKit, per creare agenti AI con pochi click

Lo strumento necessita ancora di una preparazione tecnica per usarne alcuni componenti, ma si tratta potenzialmente di un nuovo inizio per tutta l'AI agentica

continua...

OpenAI, sgambetto a Nvidia: accordo miliardario con AMD

Un'alleanza dal forte valore psicologico sui mercati, che arriva a poco tempo da un maxi-investimento della stessa Nvidia in OpenAI

continua...

Murati lancia il suo primo prodotto Tinker: l’API che insegna facilmente nuovi comportamenti ai modelli

In termini tecnici, è uno strumento che semplifica il fine-tuning. Ѐ il primo prodotto ufficiale di Thinking Machines Lab.

continua...

Ultime news

Data center nello spazio? Secondo Jeff Bezos è possibile

L'idea promossa da Bezos sta prendendo piede in tutto il…

Innovazione, l’AI conquista il settore sanitario: solo negli Usa la tecnologia viene utilizzata da oltre 2 medici su 3

Entro i prossimi 5 anni l’asset prevede di sfiorare quota…

Google ha lanciato la piattaforma Gemini Enterprise per le aziende

L'applicazione permette ai dipendenti, fra le altre cose, di creare…

L’ex premier britannico Sunak assumerà ruoli di consulenza in Microsoft e Anthropic

Le attività di Sunak saranno fortemente attenzionate da un ente…

L’imperialismo digitale di Israele e altre storie generative | Weekly AI

Weekly AI è la rassegna settimanale di AI news sulle…

In Evidenza

Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano

Gli ideatori, Lucia Cenetiempo e Massimiliano Di Blasi, ci raccontano…

Federico Faggin: “L’intelligenza artificiale non potrà mai essere cosciente”. La nostra intervista al padre del microchip | AI Talks #18

Faggin: "L'essere umano e la macchina sono due cose diverse.…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

Machine learning

Machine listening

Natural language processing

Online learning

Privacy policy| Cookie policy| Cookie setting| © 2025

Exit mobile version