OpenAI lancia GPT-4o: multimodalità nativa e prestazioni superiori

OpenAI ha annunciato il lancio di GPT-4o, la nuova versione del suo modello di intelligenza artificiale generativa, evoluzione di GPT-4. Presentato all’evento “Spring Update” di San Francisco, GPT-4o vanta capacità avanzate nella produzione e comprensione di testo, immagini e voce, con funzionalità che permettono un’interazione più fluida e in tempo reale.

Le caratteristiche del nuovo modello

Tra le novità più entusiasmanti il miglioramento delle sue funzionalità di computer vision, la navigazione sul web e la memoria dei contesti precedenti. Tutti elementi già annunciati e che ne migliorano notevolmente la fluidità nelle interazioni.

Come spiegato da Mira Murati, Chief technology officer di OpenAI, il nuovo modello è nativamente multimodale, a differenza del suo predecessore, che, in “Voice Mode”, si trovava a operare attraverso la comunicazione di tre modelli distinti per la trascrizione, l’intelligence e le funzionalità text-to-speech. Una caratteristica, la multimodalità nativa, che consente al modello di essere più veloce, “ragionando” trasversalmente su elementi testuali, immagini e audio e riducendo la latenza nell’elaborazione degli input e nella produzione di output.

Caratteristica chiave di GPT-4o è inoltre il miglioramento delle sue capacità in ben 50 lingue diverse. Questo amplia notevolmente il suo raggio d’azione e lo rende accessibile a un numero maggiore di utenti in tutto il mondo.

Un altro annuncio interessante è l’apertura del GPT Store a tutti gli utenti, non solo a quelli con l’abbonamento Plus (a pagamento). Una novità che permetterà di sperimentare anche con i GPTs creati da altri utenti.

L’applicazione desktop

Per semplificare l’interazione con GPT-4, verrà rilasciata anche un’app desktop dedicata. Questa app consentirà agli utenti di comunicare con l’AI attraverso la visione, permettendole di visualizzare lo schermo, e la voce, offrendo un’esperienza di conversazione più naturale.

Inoltre, GPT-4o sarà in grado di adattare il tono della sua voce generata in base al contesto, rendendo le interazioni ancora più “umane”.

Disponibilità e API

La grande notizia è che GPT-4o sarà presto disponibile gratuitamente nella sua versione base per tutti, mentre gli utenti Plus beneficeranno di limiti di messaggi fino a cinque volte superiori e di una velocità maggiore.

Il modello è inoltre disponibile attraverso un’API: “Gli sviluppatori ora possono anche accedere a GPT-4o nell’API come modello di testo e visione. GPT-4o è 2 volte più veloce, costa la metà e ha limiti di velocità 5 volte più alti rispetto a GPT-4 Turbo“.

Ulteriori informazioni sul sito di OpenAI.