GPT-5 in vista? OpenAI scandaglia il web per nuovi dati

OpenAI si prepara a ChatGPT-5 e lancia un nuovo bot per la raccolta dati. Tra polemiche legate al consenso e la contesa per la leadership.

5 min.

GPT-5 in vista? OpenAI scandaglia il web per nuovi dati

data bot chatgpt openai

Un nuovo bot per il web crawling (quella pratica con cui molti portali, su tutti i motori di ricerca, scandagliano il web in cerca di dati per integrare i propri database di conoscenze), chiamato GPTBot, è stato rilasciato da OpenAI per la realizzazione di un ‘nuovo’ set di addestramento per la prossima generazione di sistemi di intelligenza artificiale; un segnale importante che sembrerebbe preannunciare l’uscita (prossima o remota non si sa) dell’atteso GPT-5.

L’azienda ha depositato il marchio della nuova versione il 18 luglio 2023 e attualmente la domanda è in fase di elaborazione. Al tempo stesso OpenAI si sta preoccupando di fornire ai titolari di siti web indicazioni precise su come mantenere fuori dal corpus di OpenAI i propri contenuti, qualora non gradiscano ‘l’assorbimento’ nel database.

Il sistema ‘opt out’

Secondo quanto dichiarato dall’azienda, il nuovo web crawler raccoglierà in automatico i dati pubblicamente disponibili dai siti web, evitando però contenuti a pagamento, sensibili e vietati.

Il sistema è impostato secondo il cosiddetto ‘opt out‘ sulla scia di altri motori di ricerca come Google, Bing e Yandex. Significa che GPTBot considererà per impostazione predefinita e di default copiabili tutte le informazioni accessibili. Saranno i singoli titolari dei siti web che, qualora non volessero essere inclusi, dovranno attivamente aggiungere una regola di ‘disallow’ a un file standard nei loro server.

L’unica premura preventiva di GPTBot sarà di esaminare i dati raccolti per rimuovere informazioni personali identificabili e possibili testi che violano le sue politiche.

Una trasparenza solo apparente?

Secondo il parere di diversi esperti etici della tecnologia, pur garantendo ai siti la possibilità di non aderire, l’approccio opt out solleva comunque un problema sul consenso. L’assorbimento scriteriato di ogni tipologia di informazione raccolta scandagliando il web porta alla formazione di una sorta di ‘opera tech collettiva’ nella quale non è previsto che nessuno venga citato per il contributo fornito.

Ma su Hacker News, più di un utente ha giustificato la mossa di OpenAI, asserendo che è inevitabile una raccolta su larga scala di questo tipo se le persone desiderano avere uno strumento AI generativo realmente efficace in vista del futuro. “Hanno ancora bisogno di dati attuali – scrive un utente – altrimenti i loro modelli GPT rimarranno bloccati a settembre 2021 per sempre”.

Questo è un elemento di non secondaria importanza. Per funzionare alla perfezione, ChatGPT, come del resto qualsiasi LLM, ha bisogno di dati sempre nuovi e recenti e ne ha bisogno in gran quantità. Una AI è valida quanto la qualità dei dati utilizzati per addestrarla. Non sorprende quindi che la preoccupazione principale dell’azienda sia creare una routine nella raccolta ciclica di questi dati, senza che questa vada però a irritare gli utenti del mondo intero o a incappare severamente nelle leggi sulla privacy. L’azienda deve dunque raccogliere il più possibile, farlo con discrezione e continuità, ma anche garantendo trasparenza, o perlomeno una parvenza: tre obiettivi che apparentemente appaiono in contraddizione uno con l’altro.

https://ainews.it/addestratori-di-ai-le-storture-di-un-settore-disomogeneo/

La contesa per la leadership

Oltretutto, in questo scenario OpenAI deve fronteggiare l’avanzare dei competitor. Meta ha lanciato recentemente in modalità open source Llama 2. L’azienda non ha divulgato quali set di dati abbia utilizzato per addestrare il suo modello e quali informazioni abbia raccolto. Tuttavia, questo approccio consente agli utenti di mantenere ancora più curiosità per affinarlo ulteriormente utilizzando i propri dati.

Mentre OpenAI si affida a tutti i dati raccolti per addestrare i suoi modelli e costruire un ecosistema attorno ai propri strumenti AI, Meta cerca di sviluppare un’attività redditizia basata sui propri dati e su quelli forniti dagli utenti stessi, condividendoli anche con terze parti. L’approccio di Meta è apparentemente più lento nella raccolta dati ma così facendo il suo linguaggio AI appare meno invasivo e forse sulla lunga distanza potrebbe risultare più gradito agli utenti.

OpenAI resta protagonista

Al momento, OpenAI è comunque l’azienda che domina il mercato dell’AI, con gli altri colossi big tech che cercano di starle appresso. ChatGPT attira mensilmente oltre 1,5 miliardi di utenti attivi. E l’investimento da 10 miliardi di dollari che Microsoft ha riversato in OpenAI per l’integrazione di ChatGPT in Bing ha rinforzato ulteriormente lo status quo dell’azienda di Sam Altman.

Pare comunque assodato che, al proliferare dei sistemi di intelligenza artificiale, la vera sfida tra le aziende non sia tanto legata ai semplici risultati, quanto alla garanzia di poterli assicurare sulla lunga distanza con un costante bilanciamento tra trasparenza, etica e capacità prestazionali dei prodotti. 


Ultime news


Data center nello spazio? Secondo Jeff Bezos è possibile

L'idea promossa da Bezos sta prendendo piede in tutto il…

Google ha lanciato la piattaforma Gemini Enterprise per le aziende

L'applicazione permette ai dipendenti, fra le altre cose, di creare…

L’ex premier britannico Sunak assumerà ruoli di consulenza in Microsoft e Anthropic

Le attività di Sunak saranno fortemente attenzionate da un ente…

L’imperialismo digitale di Israele e altre storie generative | Weekly AI

Weekly AI è la rassegna settimanale di AI news sulle…

In Evidenza


Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano

Gli ideatori, Lucia Cenetiempo e Massimiliano Di Blasi, ci raccontano…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

Privacy policy| Cookie policy| Cookie setting| © 2025

Exit mobile version