Un gruppo di scienziati è alla ricerca delle domande impossibili per le AI

L'esperimento chiamato "L'ultimo esame dell'umanità" intende individuare domande in grado di mettere in difficoltà GPT, Claude e Gemini.

3 min.

Un gruppo di scienziati è alla ricerca delle domande impossibili per le AI

Mentre l’intelligenza artificiale sembra superare progressivamente gli attuali benchmark, ossia i parametri di valutazione, un nuovo progetto ambizioso cerca di alzare ulteriormente l’asticella. L’organizzazione no-profit Center for AI Safety (CAIS) e la startup Scale AI hanno unito i loro pool di scienziati per creare un esperimento di nome “L’ultimo esame dell’umanità“, lanciato ufficialmente lunedì 16 settembre. Si tratta di un grande archivio finalizzato a individuare il set di domande più complesso mai concepito per valutare le capacità delle principali AI. E gli scienziati hanno aperto il test ai contributi di chiunque.

Creare nuovi livelli di difficoltà

Abbiamo un disperato bisogno di test più severi per i modelli di livello esperto – ha dichiarato Alexandr Wang, CEO di Scale AI – per misurare i rapidi progressi dell’intelligenza artificiale“. Il viaggio alla ricerca di domande impossibili intende determinare quando l’AI raggiunge un livello di competenza paragonabile a quello degli esperti umani.

Secondo gli scienziati i consueti parametri di valutazione dell’AI sono diventati attualmente “un gioco da ragazzi” per i modelli più avanzati. Dan Hendrycks, direttore esecutivo del Center for AI Safety e già consulente della startup xAI di Elon Musk, ha evidenziato come i modelli AI stiano addirittura “distruggendo” i benchmark esistenti.

Aperto a tutti

Gli organizzatori hanno lanciato un appello mondiale per raccogliere almeno 1.000 difficili domande entro il 1° novembre e tutti possono partecipare: è sufficiente compilare il form sul sito del progetto. Le domande, che saranno sottoposte a revisione paritaria, dovranno essere estremamente settoriali e talmente impegnative da mettere in difficoltà persino gli esperti umani. Sono accettati contributi da tutti i campi, dalla matematica alla filosofia analitica, con l’esclusione di domande delicate, per esempio su armi e virologia.

Il team ha deciso di incentivare la partecipazione prevedendo premi in denaro: fino a 5.000 dollari per le domande accettate e 500 per le successive 500 migliori, per un montepremi totale di 500.000 dollari. I contributor delle domande selezionate saranno poi citati come co-autori del documento di ricerca associato al progetto.

Interrogati GPT, Claude e Gemini

Il portale del progetto mostra un esempio esplicativo pescando dal campo della matematica: “Quanti fregi Coxeter-Conway interi positivi di tipo G2 ​ci sono?“. A rispondere alle domande saranno GPT-4o, Claude e Gemini Pro 1.5.

Pensa semplicemente a una domanda difficile e vedi se le AI la indovinano – invitano i creatori dell’esperimento – Se è difficile per le AI, è probabile che sia una buona idea inviarla. Se hai dato una domanda eccezionalmente difficile a un esame o hai incontrato un risultato di nicchia nella tua ricerca, sentiti libero di farne la base per una domanda“.


Ultime news


Con AI Translations Meta punta ad abbattere il muro della lingua nei suoi reels

Meta vuole superare le barriere linguistiche e culturali creando un…

Spotify svilupperà musica prodotta con intelligenza artificiale

L'azienda ha stipulato accordi con alcune major come Sony, Universal,…

Secondo uno studio di Oxford l’AI rende gli studenti più pratici e veloci ma anche più superficiali

I ricercatori ritengono che l'AI generativa aiuti gli studenti nella…

Google ha lanciato un aggiornamento del suo strumento di generazione video AI Veo

L'aggiornamento apporta miglioramenti su realismo, controllo e continuità nelle scene…

Il paradosso di OpenAI: è sempre più centrale ma perde miliardi di dollari

I costi sono ancora fuori controllo, ma secondo Altman è…

In Evidenza


Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano

Gli ideatori, Lucia Cenetiempo e Massimiliano Di Blasi, ci raccontano…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

Privacy policy| Cookie policy| Cookie setting| © 2025

Exit mobile version