Mentre l’intelligenza artificiale sembra superare progressivamente gli attuali benchmark, ossia i parametri di valutazione, un nuovo progetto ambizioso cerca di alzare ulteriormente l’asticella. L’organizzazione no-profit Center for AI Safety (CAIS) e la startup Scale AI hanno unito i loro pool di scienziati per creare un esperimento di nome “L’ultimo esame dell’umanità“, lanciato ufficialmente lunedì 16 settembre. Si tratta di un grande archivio finalizzato a individuare il set di domande più complesso mai concepito per valutare le capacità delle principali AI. E gli scienziati hanno aperto il test ai contributi di chiunque.
I temi trattati all’interno dell’articolo
Creare nuovi livelli di difficoltà
“Abbiamo un disperato bisogno di test più severi per i modelli di livello esperto – ha dichiarato Alexandr Wang, CEO di Scale AI – per misurare i rapidi progressi dell’intelligenza artificiale“. Il viaggio alla ricerca di domande impossibili intende determinare quando l’AI raggiunge un livello di competenza paragonabile a quello degli esperti umani.
Secondo gli scienziati i consueti parametri di valutazione dell’AI sono diventati attualmente “un gioco da ragazzi” per i modelli più avanzati. Dan Hendrycks, direttore esecutivo del Center for AI Safety e già consulente della startup xAI di Elon Musk, ha evidenziato come i modelli AI stiano addirittura “distruggendo” i benchmark esistenti.
Aperto a tutti
Gli organizzatori hanno lanciato un appello mondiale per raccogliere almeno 1.000 difficili domande entro il 1° novembre e tutti possono partecipare: è sufficiente compilare il form sul sito del progetto. Le domande, che saranno sottoposte a revisione paritaria, dovranno essere estremamente settoriali e talmente impegnative da mettere in difficoltà persino gli esperti umani. Sono accettati contributi da tutti i campi, dalla matematica alla filosofia analitica, con l’esclusione di domande delicate, per esempio su armi e virologia.
Il team ha deciso di incentivare la partecipazione prevedendo premi in denaro: fino a 5.000 dollari per le domande accettate e 500 per le successive 500 migliori, per un montepremi totale di 500.000 dollari. I contributor delle domande selezionate saranno poi citati come co-autori del documento di ricerca associato al progetto.
Interrogati GPT, Claude e Gemini
Il portale del progetto mostra un esempio esplicativo pescando dal campo della matematica: “Quanti fregi Coxeter-Conway interi positivi di tipo G2 ci sono?“. A rispondere alle domande saranno GPT-4o, Claude e Gemini Pro 1.5.
“Pensa semplicemente a una domanda difficile e vedi se le AI la indovinano – invitano i creatori dell’esperimento – Se è difficile per le AI, è probabile che sia una buona idea inviarla. Se hai dato una domanda eccezionalmente difficile a un esame o hai incontrato un risultato di nicchia nella tua ricerca, sentiti libero di farne la base per una domanda“.