OpenAI ha iniziato il rilascio limitato della sua attesa Modalità vocale avanzata (Advanced voice mode) per ChatGPT, basata sul modello GPT-4o. Questa funzionalità, che offre risposte audio ancora più realistiche, è ora disponibile per un gruppo selezionato di utenti ChatGPT Plus, con una distribuzione più ampia prevista per l’autunno 2024.
Un solo modello multimodale
La nuova modalità vocale si distingue per la sua capacità di elaborare direttamente input e output audio attraverso un unico modello multimodale, eliminando la necessità di modelli intermedi per la conversione. Con la ‘vecchia’ modalità, infatti, operano attivamente tre modelli distinti: uno speech-to-text (per convertire la voce dell’utente in testo); GPT-4 per elaborare il prompt; un modello text-to-speech per generare la voce di output.
L’aggiornamento si traduce, dunque, in conversazioni più fluide e naturali, con una latenza notevolmente ridotta. Inoltre, GPT-4o può riconoscere sfumature emotive nella voce dell’utente, arricchendo l’interazione.
Questa versione alpha non include ancora tutte le funzionalità mostrate nella demo di maggio, come la condivisione video e dello schermo, che saranno introdotte in futuro. OpenAI continuerà a monitorare attentamente l’utilizzo della funzionalità, pubblicando un rapporto dettagliato sui test di sicurezza all’inizio di agosto.