Un gruppo di scienziati è alla ricerca delle domande impossibili per le AI

L'esperimento chiamato "L'ultimo esame dell'umanità" intende individuare domande in grado di mettere in difficoltà GPT, Claude e Gemini.

3 min.

Un gruppo di scienziati è alla ricerca delle domande impossibili per le AI

Mentre l’intelligenza artificiale sembra superare progressivamente gli attuali benchmark, ossia i parametri di valutazione, un nuovo progetto ambizioso cerca di alzare ulteriormente l’asticella. L’organizzazione no-profit Center for AI Safety (CAIS) e la startup Scale AI hanno unito i loro pool di scienziati per creare un esperimento di nome “L’ultimo esame dell’umanità“, lanciato ufficialmente lunedì 16 settembre. Si tratta di un grande archivio finalizzato a individuare il set di domande più complesso mai concepito per valutare le capacità delle principali AI. E gli scienziati hanno aperto il test ai contributi di chiunque.

Creare nuovi livelli di difficoltà

Abbiamo un disperato bisogno di test più severi per i modelli di livello esperto – ha dichiarato Alexandr Wang, CEO di Scale AI – per misurare i rapidi progressi dell’intelligenza artificiale“. Il viaggio alla ricerca di domande impossibili intende determinare quando l’AI raggiunge un livello di competenza paragonabile a quello degli esperti umani.

Secondo gli scienziati i consueti parametri di valutazione dell’AI sono diventati attualmente “un gioco da ragazzi” per i modelli più avanzati. Dan Hendrycks, direttore esecutivo del Center for AI Safety e già consulente della startup xAI di Elon Musk, ha evidenziato come i modelli AI stiano addirittura “distruggendo” i benchmark esistenti.

Aperto a tutti

Gli organizzatori hanno lanciato un appello mondiale per raccogliere almeno 1.000 difficili domande entro il 1° novembre e tutti possono partecipare: è sufficiente compilare il form sul sito del progetto. Le domande, che saranno sottoposte a revisione paritaria, dovranno essere estremamente settoriali e talmente impegnative da mettere in difficoltà persino gli esperti umani. Sono accettati contributi da tutti i campi, dalla matematica alla filosofia analitica, con l’esclusione di domande delicate, per esempio su armi e virologia.

Il team ha deciso di incentivare la partecipazione prevedendo premi in denaro: fino a 5.000 dollari per le domande accettate e 500 per le successive 500 migliori, per un montepremi totale di 500.000 dollari. I contributor delle domande selezionate saranno poi citati come co-autori del documento di ricerca associato al progetto.

Interrogati GPT, Claude e Gemini

Il portale del progetto mostra un esempio esplicativo pescando dal campo della matematica: “Quanti fregi Coxeter-Conway interi positivi di tipo G2 ​ci sono?“. A rispondere alle domande saranno GPT-4o, Claude e Gemini Pro 1.5.

Pensa semplicemente a una domanda difficile e vedi se le AI la indovinano – invitano i creatori dell’esperimento – Se è difficile per le AI, è probabile che sia una buona idea inviarla. Se hai dato una domanda eccezionalmente difficile a un esame o hai incontrato un risultato di nicchia nella tua ricerca, sentiti libero di farne la base per una domanda“.


Ultime news


Amazon, accordo con l’azienda Rio Tinto per la fornitura di rame per i data center AI

Gli analisti hanno previsto un aumento della domanda del 50%…

Amazon, accordo con l’azienda Rio Tinto per la fornitura di rame per i data center AI
Emirati Arabi Uniti sul tetto del mondo (e altre notizie generative)

Weekly AI è la newsletter settimanale di AI news sulle…

Emirati Arabi Uniti sul tetto del mondo (e altre notizie generative)
Stati Uniti-Taiwan, raggiunto l’accordo commerciale: dazi al 15% in cambio di corposi investimenti

Le aziende tecnologiche taiwanesi si impegnano a investire 250 miliardi…

Stati Uniti-Taiwan, raggiunto l’accordo commerciale: dazi al 15% in cambio di corposi investimenti

In Evidenza


Luciano Floridi: “L’intelligenza artificiale non è intelligente”, la nostra intervista | AI Talks #20

"Se potessi tornare indietro, eliminerei l'espressione 'intelligenza artificiale', la chiamerei…

Luciano Floridi: “L’intelligenza artificiale non è intelligente”, la nostra intervista | AI Talks #20
Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang
I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

Privacy policy| Cookie policy| Cookie setting| © 2026