Trends

News - Trend trimestrale

Volume trimestrale

... ..%

Volume semestrale

... ..%

SeamlessM4T, il modello per la traduzione multimodale di Meta

4 minuti

Paolo Marinoni 24 Agosto 2023
4 minuti

Meta presenta SeamlessM4T, un innovativo modello di intelligenza artificiale in grado di supportare la traduzione multimodale e multilingue attraverso voce e testo. Si tratta del primo modello del suo genere sviluppato da Meta che unisce diverse capacità di traduzione in un unico sistema.

Le funzionalità per una traduzione multimodale

SeamlessM4T può eseguire traduzioni da voce a testo, da voce a voce, da testo a voce e da testo a testo per un massimo di 100 lingue, a seconda dell’attività. Ciò significa che questo modello AI può trascrivere discorsi, tradurli in un’altra lingua parlata o scritta e persino sintetizzare testi in voce.

Per ora, le funzioni vocali in output sono ‘limitate’ a 35 lingue, ma l’intenzione della società è quella di rendere il servizio disponibile in modo sempre più universale.

Secondo quanto riportato da Meta, questo approccio multimodale basato su un singolo sistema riduce errori e ritardi nella traduzione, migliorandone efficienza e qualità. Elementi che rendono più semplice la comunicazione istantanea tra persone che parlano lingue diverse.

Lo sviluppo del modello

SeamlessM4T si basa sui precedenti sviluppi di Meta nel campo della traduzione automatica multilingue, come il modello NLLB (No Language Left Behind) per la traduzione testo-testo in 200 lingue e il sistema di traduzione vocale diretta Universal Speech Translator per l’hokkien, una lingua priva di un sistema di scrittura ampiamente utilizzato.

Per costruire SeamlessM4T, Meta ha utilizzato grandi quantità di dati vocali multilingue derivanti anche dall’allineamento automatico di 443.000 ore di parlato con testi e la creazione di 29.000 ore di allineamenti da parlato a parlato. Questo corpus, denominato SeamlessAlign, è il più grande open multimodal translation dataset esistente per volume e copertura linguistica.

E anche il modello derivante da questo sviluppo è “open”. Spiegano infatti da Meta:

“In linea con il nostro approccio alla scienza aperta, stiamo rilasciando pubblicamente SeamlessM4T sotto CC BY-NC 4.0 per consentire a ricercatori e sviluppatori di costruire su questo lavoro“.

I test su performance e bias

I risultati dei test condotti da Meta mostrano prestazioni all’avanguardia per quasi 100 lingue e miglioramenti significativi per le lingue a medie o basse risorse. SeamlessM4T supera anche i precedenti modelli allo stato dell’arte.

meta modello traduzione test
Grafico tratto dal blog di Meta AI

Meta ha inoltre condotto test di robustezza e sui bias per sviluppare il modello in modo responsabile e lo stesso è stato rilasciato open source anche per consentirne il miglioramento da parte della comunità scientifica.

Si tratta dunque di un passo rilevante verso la realizzazione di un sistema multimodale per la traduzione universale, anche se alcuni aspetti linguistici – come modi di dire, espressioni colloquiali, regionalismi e riferimenti sociali e/o culturali non esplicitati – rimangono di difficile gestione.

Demo e paper disponibili sulle piattaforme di Meta.


In Evidenza


Quando le relazioni sono artificiali

Da un partner virtuale a una conversazione con una persona…

Chi fermerà l’AI? Riflessione sull’appello di Musk

Elon Musk e altri mille esperti chiedono una pausa di…

Elon Musk e altri mille esperti: “Allarme intelligenza artificiale”

Elon Musk e altri mille esperti hanno chiesto di sospendere…

Microsoft 365 Copilot, un’AI generativa per la produttività

Microsoft ha lanciato 365 Copilot, un servizio di intelligenza artificiale…

OpenAI rilascia GPT-4, più potente e multimodale

GPT-4 è arrivato. Un modello multimodale e con 100 trilioni…