ChatGPT diventa multimodale e migliora il web browsing

ChatGPT si sta rapidamente evolvendo per interagire in modo sempre più naturale e multimodale con gli utenti.

7 min.

ChatGPT diventa multimodale e migliora il web browsing

ChatGPT, il popolare chatbot sviluppato da OpenAI e rilasciato a fine novembre 2022, si sta rapidamente evolvendo per interagire in modo sempre più naturale e multimodale con gli utenti.

Di recente, la società ha integrato nell’app per iOS e Android una serie di nuove funzionalità che rendono la user experience ancora più fluida.

Conversazioni vocali

È ora possibile porre domande a voce e ricevere risposte generate vocalmente dall’intelligenza artificiale conversazionale. Una modalità di interazione che garantisce anche una maggiore accessibilità al servizio per le persone con disabilità.

La nuova funzionalità vocale è potenziata da un nuovo modello text-to-speech, in grado di generare audio simile a quello umano da solo testo e pochi secondi di esempio vocale. Inoltre, viene utilizzato il sistema open-source di riconoscimento vocale Whisper per trascrivere le parole pronunciate (anche in diversi accenti) in testo.

Un’immagine vale mille parole

Inoltre, mostrando immagini a ChatGPT tramite la fotocamera dello smartphone o caricando un’immagine dalla propria galleria, il chatbot è in grado di descrivere accuratamente il contenuto visivo e di rispondere in modo coerente a diverse domande poste (anche vocalmente) sull’immagine.

Ma non solo: nel caso in cui si volesse focalizzare l’attenzione di ChatGPT su un particolare dell’immagine, è possibile delimitare l’area disegnandoci sopra. Il modello è inoltre in grado di gestire una conversazione su più contenuti. Una funzionalità utile soprattutto alla comparazione.

Un servizio in continua evoluzione

Le capacità multimodali di ChatGPT sono possibili grazie agli algoritmi di deep learning sviluppati da OpenAI, che vengono costantemente migliorati grazie all’enorme quantità di dati raccolti dall’utilizzo diffuso del chatbot. In soli 9 mesi, ChatGPT è così passato da uno strumento testuale a un assistente virtuale in grado di comprendere e generare contenuti vocali e visivi.

Le nuove funzionalità verranno distribuite agli utenti Plus e Enterprise nei prossimi giorni. La voce arriverà su iOS e Android (con opt-in nelle impostazioni), mentre le immagini saranno disponibili su tutte le piattaforme.

L’obiettivo di OpenAI è creare una AGI sicura e vantaggiosa – si legge sul sito ufficiale della società -. Crediamo nel rendere i nostri strumenti disponibili gradualmente, il che ci consente di apportare miglioramenti e affinare la mitigazione dei rischi nel tempo, preparando allo stesso tempo tutti a sistemi più potenti in futuro. Questa strategia diventa ancora più importante con i modelli avanzati che coinvolgono voce e visione”.

Non solo un chatbot multimodale: il browsing migliorato

ChatGPT si sta dunque evolvendo oltre le sue origini di chatbot testuale per diventare un assistente virtuale sempre più completo e aggiornato.

A maggio, per esempio, era stata annunciata la possibilità di navigare online per gli abbonati a Plus ed Enterprise. Il servizio di browsing rende possibile l’accesso a informazioni più recenti (e successive al settembre 2021, mese in cui era stato strutturato il dataset utilizzato per il training del modello), con tanto di link diretti alle fonti originali. La navigazione è stata ora migliorata seguendo le indicazioni degli utenti, per esempio rispettando le preferenze dei siti web visitati.

Questa nuova funzionalità – annunciata dalla stessa OpenAI – apre interessanti prospettive, consentendo a ChatGPT di aiutare gli utenti con ricerche tecniche, confronti di prodotti o pianificazione di viaggi, tutti campi che richiedono dati freschi e aggiornati.

Presto, anche gli utenti non abbonati potranno fruire dei nuovi aggiornamenti.

I limiti di ChatGPT

Come ogni nuova funzionalità, quelle presentate negli ultimi giorni presentano opportunità, ma anche potenziali rischi.

L’obiettivo una versione multimodale di ChatGPT, come dichiarato dalla società, è quello di assistere gli utenti nel quotidiano e la sua efficacia (e personalizzazione) dipende dalle informazioni a cui il chatbot può accedere. Tuttavia, un accesso incondizionato alle fotocamere dei nostri smartphone e ai nostri dati sensibili potrebbe sconfinare in una violazione della privacy.

Si legge sul sito di OpenAI:

“Abbiamo adottato misure tecniche per limitare in modo significativo la capacità di ChatGPT di analizzare e rilasciare dichiarazioni dirette sulle persone poiché ChatGPT non è sempre accurato e questi sistemi dovrebbero rispettare la privacy delle persone.

L’utilizzo e il feedback nel mondo reale ci aiuteranno a migliorare ulteriormente queste misure di protezione, garantendo allo stesso tempo che lo strumento continui a essere utile”.

Sul rischio di eccessivo affidamento a un servizio che, per sua natura, rimane ‘sperimentale’, la società ha poi aggiunto:

Gli utenti potrebbero dipendere da ChatGPT per argomenti specializzati, ad esempio in campi come la ricerca. Siamo trasparenti riguardo ai limiti del modello e scoraggiamo i casi d’uso a rischio più elevato senza un’adeguata verifica“.

Da ricordare, infine, che ChatGPT è molto più preciso ed efficace in inglese. In altre lingue, e soprattutto in quelle con alfabeti diversi da quello latino, potrebbe mostrare importanti lacune o imprecisioni.

La visione di Sam Altman, verso una valutazione da 90 miliardi

I rischi sottolineati sopra non sembrano scoraggiare il fondatore e CEO di OpenAI, Sam Altman, intervenuto in collegamento da San Francisco in occasione dell’Italian Tech Week di Torino.

Il creatore del chatbot che ha cambiato il panorama globale dell’AI ha commentato riferendosi alla regolamentazione dell’intelligenza artificiale:

Non credo che i modelli attuali siano così pericolosi. Penso invece che una sovra-normazione del settore sarebbe un peccato, perché lo limiterebbe nel suo sviluppo. Quello che succede nell’open source è sorprendente e non dovrebbe essere bloccato.

Sicuramente dei rischi esistono e oggi sono legati soprattutto alla disinformazione, ma è per i modelli futuri che bisognerà fare maggiore attenzione, ad esempio per i cyber attacchi e per le armi biologiche. Questi sono rischi effettivi, ma i modelli futuri avranno un’altra portata”.

Una visione ottimistica sullo stato dell’arte dell’AI generativa, comprensibile se contestualizzata alla luce delle ultime indiscrezioni dal mercato: OpenAI avrebbe intenzione di vendere azioni al fine di aumentare la propria valutazione dai 29 miliardi di dollari attuali a circa 90.

(Immagine in evidenza tratta dal sito di OpenAI)


Ultime news


Anthropic, accordo da 1,8 miliardi di dollari con Akamai per accedere a risorse cloud per l’AI

Anthropic sta affrontando un momento di crescita esponenziale dei suoi…

Anthropic, accordo da 1,8 miliardi di dollari con Akamai per accedere a risorse cloud per l’AI
Chrome scarica 4 GB di AI sul tuo PC senza chiederti nulla

Google Chrome installa silenziosamente Gemini Nano, il suo modello di…

Chrome scarica 4 GB di AI sul tuo PC senza chiederti nulla
La Commissione UE ha avviato una consultazione pubblica sullla trasparenza dell’AI

L'obiettivo è chiarire le regole che, a partire dal 2…

La Commissione UE ha avviato una consultazione pubblica sullla trasparenza dell’AI
SoftBank ha ridotto del 40% il prestito pianificato a OpenAI: pesa il timore dei creditori

I creditori ultimamente mostrano resistenza derivanti dalla difficoltà nel valutare…

SoftBank ha ridotto del 40% il prestito pianificato a OpenAI: pesa il timore dei creditori
Terafab: Musk mette 55 miliardi sul nuovo impianto di produzione di chip di SpaceX

Una delle scommesse industriali più grandi mai annunciate da un'azienda…

Terafab: Musk mette 55 miliardi sul nuovo impianto di produzione di chip di SpaceX

In Evidenza


Più del 50% dei giovani europei usa l’AI per cercare supporto emotivo

Lo riferisce un sondaggio Ipsos BVA condotto su 3.800 ragazzi…

Più del 50% dei giovani europei usa l’AI per cercare supporto emotivo
Intelligenza artificiale: prepararsi al 2026 | Il report di AI News

Il nuovo report di AI News per non farsi sorprendere…

Intelligenza artificiale: prepararsi al 2026 | Il report di AI News
AI, bolla o non bolla? Il parere degli esperti non è unanime

Ne abbiamo intervistati cinque per unire i puntini

AI, bolla o non bolla? Il parere degli esperti non è unanime
Luciano Floridi: “L’intelligenza artificiale non è intelligente”, la nostra intervista | AI Talks #20

"Se potessi tornare indietro, eliminerei l'espressione 'intelligenza artificiale', la chiamerei…

Luciano Floridi: “L’intelligenza artificiale non è intelligente”, la nostra intervista | AI Talks #20

Privacy policy| Cookie policy| Cookie setting| © 2026