GPT-5 in vista? OpenAI scandaglia il web per nuovi dati

GPT-5 in vista? OpenAI scandaglia il web per nuovi dati

data bot chatgpt openai

Un nuovo bot per il web crawling (quella pratica con cui molti portali, su tutti i motori di ricerca, scandagliano il web in cerca di dati per integrare i propri database di conoscenze), chiamato GPTBot, è stato rilasciato da OpenAI per la realizzazione di un ‘nuovo’ set di addestramento per la prossima generazione di sistemi di intelligenza artificiale; un segnale importante che sembrerebbe preannunciare l’uscita (prossima o remota non si sa) dell’atteso GPT-5.

L’azienda ha depositato il marchio della nuova versione il 18 luglio 2023 e attualmente la domanda è in fase di elaborazione. Al tempo stesso OpenAI si sta preoccupando di fornire ai titolari di siti web indicazioni precise su come mantenere fuori dal corpus di OpenAI i propri contenuti, qualora non gradiscano ‘l’assorbimento’ nel database.

Il sistema ‘opt out’

Secondo quanto dichiarato dall’azienda, il nuovo web crawler raccoglierà in automatico i dati pubblicamente disponibili dai siti web, evitando però contenuti a pagamento, sensibili e vietati.

Il sistema è impostato secondo il cosiddetto ‘opt out‘ sulla scia di altri motori di ricerca come Google, Bing e Yandex. Significa che GPTBot considererà per impostazione predefinita e di default copiabili tutte le informazioni accessibili. Saranno i singoli titolari dei siti web che, qualora non volessero essere inclusi, dovranno attivamente aggiungere una regola di ‘disallow’ a un file standard nei loro server.

L’unica premura preventiva di GPTBot sarà di esaminare i dati raccolti per rimuovere informazioni personali identificabili e possibili testi che violano le sue politiche.

Una trasparenza solo apparente?

Secondo il parere di diversi esperti etici della tecnologia, pur garantendo ai siti la possibilità di non aderire, l’approccio opt out solleva comunque un problema sul consenso. L’assorbimento scriteriato di ogni tipologia di informazione raccolta scandagliando il web porta alla formazione di una sorta di ‘opera tech collettiva’ nella quale non è previsto che nessuno venga citato per il contributo fornito.

Ma su Hacker News, più di un utente ha giustificato la mossa di OpenAI, asserendo che è inevitabile una raccolta su larga scala di questo tipo se le persone desiderano avere uno strumento AI generativo realmente efficace in vista del futuro. “Hanno ancora bisogno di dati attuali – scrive un utente – altrimenti i loro modelli GPT rimarranno bloccati a settembre 2021 per sempre”.

Questo è un elemento di non secondaria importanza. Per funzionare alla perfezione, ChatGPT, come del resto qualsiasi LLM, ha bisogno di dati sempre nuovi e recenti e ne ha bisogno in gran quantità. Una AI è valida quanto la qualità dei dati utilizzati per addestrarla. Non sorprende quindi che la preoccupazione principale dell’azienda sia creare una routine nella raccolta ciclica di questi dati, senza che questa vada però a irritare gli utenti del mondo intero o a incappare severamente nelle leggi sulla privacy. L’azienda deve dunque raccogliere il più possibile, farlo con discrezione e continuità, ma anche garantendo trasparenza, o perlomeno una parvenza: tre obiettivi che apparentemente appaiono in contraddizione uno con l’altro.

https://ainews.it/addestratori-di-ai-le-storture-di-un-settore-disomogeneo/

La contesa per la leadership

Oltretutto, in questo scenario OpenAI deve fronteggiare l’avanzare dei competitor. Meta ha lanciato recentemente in modalità open source Llama 2. L’azienda non ha divulgato quali set di dati abbia utilizzato per addestrare il suo modello e quali informazioni abbia raccolto. Tuttavia, questo approccio consente agli utenti di mantenere ancora più curiosità per affinarlo ulteriormente utilizzando i propri dati.

Mentre OpenAI si affida a tutti i dati raccolti per addestrare i suoi modelli e costruire un ecosistema attorno ai propri strumenti AI, Meta cerca di sviluppare un’attività redditizia basata sui propri dati e su quelli forniti dagli utenti stessi, condividendoli anche con terze parti. L’approccio di Meta è apparentemente più lento nella raccolta dati ma così facendo il suo linguaggio AI appare meno invasivo e forse sulla lunga distanza potrebbe risultare più gradito agli utenti.

OpenAI resta protagonista

Al momento, OpenAI è comunque l’azienda che domina il mercato dell’AI, con gli altri colossi big tech che cercano di starle appresso. ChatGPT attira mensilmente oltre 1,5 miliardi di utenti attivi. E l’investimento da 10 miliardi di dollari che Microsoft ha riversato in OpenAI per l’integrazione di ChatGPT in Bing ha rinforzato ulteriormente lo status quo dell’azienda di Sam Altman.

Pare comunque assodato che, al proliferare dei sistemi di intelligenza artificiale, la vera sfida tra le aziende non sia tanto legata ai semplici risultati, quanto alla garanzia di poterli assicurare sulla lunga distanza con un costante bilanciamento tra trasparenza, etica e capacità prestazionali dei prodotti. 


Ultime news


Svezia: 1,5 miliardi di euro per lo sviluppo dell’intelligenza artificiale

Un rapporto della Commissione AI-RFS, che ha evidenziato il rischio…

Svezia: 1,5 miliardi di euro per lo sviluppo dell’intelligenza artificiale
Learning Lab Datacenter, un nuovo master al Politecnico di Milano

Il master sui datacenter partirà il prossimo 8 maggio ed…

Learning Lab Datacenter, un nuovo master al Politecnico di Milano
Parigi si prepara a ospitare un grande summit sull’AI che unirà politica e aziende

Capi di Stato, leader di organizzazioni internazionali, rappresentanti delle aziende:…

Parigi si prepara a ospitare un grande summit sull’AI che unirà politica e aziende
BlackRock assumerà 1200 persone in India per il suo sviluppo AI

La mega società di investimento guarda all'India per potenziare lo…

BlackRock assumerà 1200 persone in India per il suo sviluppo AI
Gemini 2.0, nuove versioni annunciate da Google DeepMind

Aggiornamenti per Google Gemini 2.0, ora disponibile per tutti nella…

Gemini 2.0, nuove versioni annunciate da Google DeepMind

In Evidenza


Chi è Liang Wenfeng, il visionario dietro DeepSeek

Fino a pochi giorni fa nessuno in Occidente aveva mai…

Chi è Liang Wenfeng, il visionario dietro DeepSeek
I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13
OpenAI: anche Mira Murati lascia

L'abbandono di Murati si aggiunge a quelli di Ilya Sutskever,…

OpenAI: anche Mira Murati lascia
L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi
Bambina di 8 anni crea chatbot da sola: la nostra intervista esclusiva al papà

Il video di Faraday è stato visto oltre 2,6 milioni…

Bambina di 8 anni crea chatbot da sola: la nostra intervista esclusiva al papà

Powered byReputation Manager

Privacy policy| Cookie policy| Cookie setting| © 2025