Trends

News - Trend trimestrale

Volume trimestrale

... ..%

Volume semestrale

... ..%

Un gruppo di scienziati è alla ricerca delle domande impossibili per le AI

Un gruppo di scienziati è alla ricerca delle domande impossibili per le AI

Mentre l’intelligenza artificiale sembra superare progressivamente gli attuali benchmark, ossia i parametri di valutazione, un nuovo progetto ambizioso cerca di alzare ulteriormente l’asticella. L’organizzazione no-profit Center for AI Safety (CAIS) e la startup Scale AI hanno unito i loro pool di scienziati per creare un esperimento di nome “L’ultimo esame dell’umanità“, lanciato ufficialmente lunedì 16 settembre. Si tratta di un grande archivio finalizzato a individuare il set di domande più complesso mai concepito per valutare le capacità delle principali AI. E gli scienziati hanno aperto il test ai contributi di chiunque.

Creare nuovi livelli di difficoltà

Abbiamo un disperato bisogno di test più severi per i modelli di livello esperto – ha dichiarato Alexandr Wang, CEO di Scale AI – per misurare i rapidi progressi dell’intelligenza artificiale“. Il viaggio alla ricerca di domande impossibili intende determinare quando l’AI raggiunge un livello di competenza paragonabile a quello degli esperti umani.

Secondo gli scienziati i consueti parametri di valutazione dell’AI sono diventati attualmente “un gioco da ragazzi” per i modelli più avanzati. Dan Hendrycks, direttore esecutivo del Center for AI Safety e già consulente della startup xAI di Elon Musk, ha evidenziato come i modelli AI stiano addirittura “distruggendo” i benchmark esistenti.

Aperto a tutti

Gli organizzatori hanno lanciato un appello mondiale per raccogliere almeno 1.000 difficili domande entro il 1° novembre e tutti possono partecipare: è sufficiente compilare il form sul sito del progetto. Le domande, che saranno sottoposte a revisione paritaria, dovranno essere estremamente settoriali e talmente impegnative da mettere in difficoltà persino gli esperti umani. Sono accettati contributi da tutti i campi, dalla matematica alla filosofia analitica, con l’esclusione di domande delicate, per esempio su armi e virologia.

Il team ha deciso di incentivare la partecipazione prevedendo premi in denaro: fino a 5.000 dollari per le domande accettate e 500 per le successive 500 migliori, per un montepremi totale di 500.000 dollari. I contributor delle domande selezionate saranno poi citati come co-autori del documento di ricerca associato al progetto.

Interrogati GPT, Claude e Gemini

Il portale del progetto mostra un esempio esplicativo pescando dal campo della matematica: “Quanti fregi Coxeter-Conway interi positivi di tipo G2 ​ci sono?“. A rispondere alle domande saranno GPT-4o, Claude e Gemini Pro 1.5.

Pensa semplicemente a una domanda difficile e vedi se le AI la indovinano – invitano i creatori dell’esperimento – Se è difficile per le AI, è probabile che sia una buona idea inviarla. Se hai dato una domanda eccezionalmente difficile a un esame o hai incontrato un risultato di nicchia nella tua ricerca, sentiti libero di farne la base per una domanda“.


In Evidenza


I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

OpenAI: anche Mira Murati lascia

L'abbandono di Murati si aggiunge a quelli di Ilya Sutskever,…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

Bambina di 8 anni crea chatbot da sola: la nostra intervista esclusiva al papà

Il video di Faraday è stato visto oltre 2,6 milioni…

Quando le relazioni sono artificiali

Da un partner virtuale a una conversazione con una persona…