La startup francese Mistral AI ha lanciato Voxtral TTS, un modello di intelligenza artificiale open source per la sintesi vocale che punta a ribaltare gli equilibri in un mercato fino ad oggi dominato da nomi statunitensi come ElevenLabs, Deepgram e OpenAI. L’azienda parigina lo definisce come il primo modello conversione testo-voce di qualità di frontiera con pesi aperti, pensato esplicitamente per le imprese.
Voxtral TTS supporta nove lingue, tra cui italiano, francese, tedesco, spagnolo e hindi, e può girare su smartwatch, smartphone e laptop. Una delle caratteristiche più notevoli è la capacità di clonare una voce partendo da un campione audio di meno di cinque secondi, mantenendone accento, intonazione e cadenza anche quando si passa da una lingua all’altra. Prestazioni che si traducono in numeri concreti. Il modello impiega infatti appena 90 millisecondi prima di produrre il primo audio. “Il costo è una frazione rispetto a qualsiasi altro prodotto sul mercato, ma offre performance all’avanguardia”, ha dichiarato Pierre Stock, vicepresidente per le operazioni scientifiche di Mistral AI.
L’ambizione di Mistral va però oltre il singolo modello. Stock ha descritto una visione in cui l’audio diventa l’interfaccia naturale per gli agenti AI in previsione di un futuro in cui il mercato si svilupperà maggiormente in questa direzione. “Vediamo l’audio come una grande scommessa e forse come la sola interfaccia del futuro con i modelli AI“, ha aggiunto Stock. Con Voxtral TTS che completa la gamma, già composta da modelli di trascrizione e un layer linguistico, Mistral ha ora una sequenza vocale completa, da eseguire interamente senza dipendere da server esterni.

Mistral ha lanciato Forge: una piattaforma che permette alle aziende di costruire modelli AI su misura
A differenza degli approcci più diffusi Forge permette di costruire…














