Leaderboard: comparazione tra modelli

Nella nostra leaderboard, mappiamo i principali modelli di linguaggio sviluppati e rilasciati dalle aziende di punta operanti nel settore dell’intelligenza artificiale. 

La tabella raccoglie i risultati di diverse valutazioni operate attraverso una serie di benchmark in grado di rappresentare in modo comprensivo le funzionalità e i livelli di efficienza dei large language model in esame, dalle abilità matematiche al ‘ragionamento’, fino alla capacità di elaborazione del testo. A ogni modello riportato nella leaderboard è dedicata una pagina di approfondimento. 

La mappatura include modelli gratuiti e a pagamento ed è aggiornata nel tempo, in modo da seguire l’evoluzione e i trend del settore. 

Modello Average*
Punteggio medio delle prestazioni complessive
MMLU (General)
Comprensione multi-task su vari argomenti
GPQA (Reasoning)
Capacità di ragionamento e deduzione
HumanEval (Coding)
Competenze nella programmazione
Math
Risoluzione di problemi matematici
BFCL (Tool Use)
Uso efficace di strumenti esterni
MGSM (Multilingual)
Comprensione e generazione multilingue
Claude 3.5 Sonnet 84.5% 88.3% 65% 93.7% 78.3% 90.2% 91.6%
GPT-4o 80.5% 88.7% 53.6% 90.2% 76.6% 83.5% 90.5%
OpenAI o1 - 91.8% 75.7% 92.4% 96.4% - 89.3%
GPT-4o Mini - 82% 40.2% 87.2% 70.2% - 87%
Llama 3.1 405b 80.4% 88.6% 51.1% 89% 73.8% 88.5% 91.6%
GPT 3.5 Turbo 59.2% 69.8% 30.8% 68% 34.1% 64.4% 56.3%
Gemini 1.5 Pro 74.1% 85.9% 46.2% 71.9% 67.7% 84.3% 88.7%
Llama-3.3 70b 74.5% 86% 48% 88.4% 77% 77.5% 91.1%
DeepSeek R1 - 90.8% 71.5% - 97.3% - -
DeepSeek V3 - 88.5% 59.1% - 90.2% - -

* Per alcuni modelli non è presente il dato Average in quanto non sono disponibili i valori di alcuni parametri.

Ultimo aggiornamento: Gennaio 2025

Ultime news


Emirati Arabi Uniti: in arrivo il più grande campus di AI al di fuori degli USA

Gli Stati Uniti hanno concluso un accordo per la costruzione…

Emirati Arabi Uniti: in arrivo il più grande campus di AI al di fuori degli USA
Meta ritarda il rilascio del modello Behemoth per timori sulle capacità

Le preoccupazioni sugli effettivi miglioramenti del modello di AI Behemoth…

Meta ritarda il rilascio del modello Behemoth per timori sulle capacità
Italia ed Emirati Arabi Uniti svilupperanno un polo di intelligenza artificiale

L'accordo annunciato dal ministro Urso fra iGenius e G42 prevede…

Italia ed Emirati Arabi Uniti svilupperanno un polo di intelligenza artificiale
Siemens, Microsoft e Danieli Automation accelerano la digital transformation della manifattura italiana

Presentata una collaborazione tra Siemens e Microsoft. Al centro Siemens…

Siemens, Microsoft e Danieli Automation accelerano la digital transformation della manifattura italiana

In Evidenza


I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13
L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi
Bambina di 8 anni crea chatbot da sola: la nostra intervista esclusiva al papà

Il video di Faraday è stato visto oltre 2,6 milioni…

Bambina di 8 anni crea chatbot da sola: la nostra intervista esclusiva al papà
Quando le relazioni sono artificiali

Da un partner virtuale a una conversazione con una persona…

Quando le relazioni sono artificiali

Privacy policy| Cookie policy| Cookie setting| © 2025