GPT-5 in vista? OpenAI scandaglia il web per nuovi dati

Un nuovo bot per il web crawling (quella pratica con cui molti portali, su tutti i motori di ricerca, scandagliano il web in cerca di dati per integrare i propri database di conoscenze), chiamato GPTBot, è stato rilasciato da OpenAI per la realizzazione di un ‘nuovo’ set di addestramento per la prossima generazione di sistemi di intelligenza artificiale; un segnale importante che sembrerebbe preannunciare l’uscita (prossima o remota non si sa) dell’atteso GPT-5.

L’azienda ha depositato il marchio della nuova versione il 18 luglio 2023 e attualmente la domanda è in fase di elaborazione. Al tempo stesso OpenAI si sta preoccupando di fornire ai titolari di siti web indicazioni precise su come mantenere fuori dal corpus di OpenAI i propri contenuti, qualora non gradiscano ‘l’assorbimento’ nel database.

ChatGPT sta diventando ‘stupido’?

Il sistema ‘opt out’

Secondo quanto dichiarato dall’azienda, il nuovo web crawler raccoglierà in automatico i dati pubblicamente disponibili dai siti web, evitando però contenuti a pagamento, sensibili e vietati.

Il sistema è impostato secondo il cosiddetto ‘opt out‘ sulla scia di altri motori di ricerca come Google, Bing e Yandex. Significa che GPTBot considererà per impostazione predefinita e di default copiabili tutte le informazioni accessibili. Saranno i singoli titolari dei siti web che, qualora non volessero essere inclusi, dovranno attivamente aggiungere una regola di ‘disallow’ a un file standard nei loro server.

L’unica premura preventiva di GPTBot sarà di esaminare i dati raccolti per rimuovere informazioni personali identificabili e possibili testi che violano le sue politiche.

ChatGPT, regole sulla privacy | Weekly AI news #53

Una trasparenza solo apparente?

Secondo il parere di diversi esperti etici della tecnologia, pur garantendo ai siti la possibilità di non aderire, l’approccio opt out solleva comunque un problema sul consenso. L’assorbimento scriteriato di ogni tipologia di informazione raccolta scandagliando il web porta alla formazione di una sorta di ‘opera tech collettiva’ nella quale non è previsto che nessuno venga citato per il contributo fornito.

Ma su Hacker News, più di un utente ha giustificato la mossa di OpenAI, asserendo che è inevitabile una raccolta su larga scala di questo tipo se le persone desiderano avere uno strumento AI generativo realmente efficace in vista del futuro. “Hanno ancora bisogno di dati attuali – scrive un utente – altrimenti i loro modelli GPT rimarranno bloccati a settembre 2021 per sempre”.

Questo è un elemento di non secondaria importanza. Per funzionare alla perfezione, ChatGPT, come del resto qualsiasi LLM, ha bisogno di dati sempre nuovi e recenti e ne ha bisogno in gran quantità. Una AI è valida quanto la qualità dei dati utilizzati per addestrarla. Non sorprende quindi che la preoccupazione principale dell’azienda sia creare una routine nella raccolta ciclica di questi dati, senza che questa vada però a irritare gli utenti del mondo intero o a incappare severamente nelle leggi sulla privacy. L’azienda deve dunque raccogliere il più possibile, farlo con discrezione e continuità, ma anche garantendo trasparenza, o perlomeno una parvenza: tre obiettivi che apparentemente appaiono in contraddizione uno con l’altro.

https://ainews.it/addestratori-di-ai-le-storture-di-un-settore-disomogeneo/

La contesa per la leadership

Oltretutto, in questo scenario OpenAI deve fronteggiare l’avanzare dei competitor. Meta ha lanciato recentemente in modalità open source Llama 2. L’azienda non ha divulgato quali set di dati abbia utilizzato per addestrare il suo modello e quali informazioni abbia raccolto. Tuttavia, questo approccio consente agli utenti di mantenere ancora più curiosità per affinarlo ulteriormente utilizzando i propri dati.

Mentre OpenAI si affida a tutti i dati raccolti per addestrare i suoi modelli e costruire un ecosistema attorno ai propri strumenti AI, Meta cerca di sviluppare un’attività redditizia basata sui propri dati e su quelli forniti dagli utenti stessi, condividendoli anche con terze parti. L’approccio di Meta è apparentemente più lento nella raccolta dati ma così facendo il suo linguaggio AI appare meno invasivo e forse sulla lunga distanza potrebbe risultare più gradito agli utenti.

Microsoft e Meta, partnership strategica per il lancio di Llama 2

OpenAI resta protagonista

Al momento, OpenAI è comunque l’azienda che domina il mercato dell’AI, con gli altri colossi big tech che cercano di starle appresso. ChatGPT attira mensilmente oltre 1,5 miliardi di utenti attivi. E l’investimento da 10 miliardi di dollari che Microsoft ha riversato in OpenAI per l’integrazione di ChatGPT in Bing ha rinforzato ulteriormente lo status quo dell’azienda di Sam Altman.

Pare comunque assodato che, al proliferare dei sistemi di intelligenza artificiale, la vera sfida tra le aziende non sia tanto legata ai semplici risultati, quanto alla garanzia di poterli assicurare sulla lunga distanza con un costante bilanciamento tra trasparenza, etica e capacità prestazionali dei prodotti.

GPT-5 in vista? OpenAI scandaglia il web per nuovi dati

Il sistema ‘opt out’

Una trasparenza solo apparente?

La contesa per la leadership

OpenAI resta protagonista

Articoli simili