Leaderboard: comparazione tra modelli

Nella nostra leaderboard, mappiamo i principali modelli di linguaggio sviluppati e rilasciati dalle aziende di punta operanti nel settore dell’intelligenza artificiale. 

La tabella raccoglie i risultati di diverse valutazioni operate attraverso una serie di benchmark in grado di rappresentare in modo comprensivo le funzionalità e i livelli di efficienza dei large language model in esame, dalle abilità matematiche al ‘ragionamento’, fino alla capacità di elaborazione del testo. A ogni modello riportato nella leaderboard è dedicata una pagina di approfondimento. 

La mappatura include modelli gratuiti e a pagamento ed è aggiornata nel tempo, in modo da seguire l’evoluzione e i trend del settore. 

Modello Average*
Punteggio medio delle prestazioni complessive
MMLU (General)
Comprensione multi-task su vari argomenti
GPQA (Reasoning)
Capacità di ragionamento e deduzione
HumanEval (Coding)
Competenze nella programmazione
Math
Risoluzione di problemi matematici
BFCL (Tool Use)
Uso efficace di strumenti esterni
MGSM (Multilingual)
Comprensione e generazione multilingue
Claude 3.5 Sonnet 84.5% 88.3% 65% 93.7% 78.3% 90.2% 91.6%
GPT-4o 80.5% 88.7% 53.6% 90.2% 76.6% 83.5% 90.5%
OpenAI o1 - 91.8% 75.7% 92.4% 96.4% - 89.3%
GPT-4o Mini - 82% 40.2% 87.2% 70.2% - 87%
Llama 3.1 405b 80.4% 88.6% 51.1% 89% 73.8% 88.5% 91.6%
GPT 3.5 Turbo 59.2% 69.8% 30.8% 68% 34.1% 64.4% 56.3%
Gemini 1.5 Pro 74.1% 85.9% 46.2% 71.9% 67.7% 84.3% 88.7%
Llama-3.3 70b 74.5% 86% 48% 88.4% 77% 77.5% 91.1%
DeepSeek R1 - 90.8% 71.5% - 97.3% - -
DeepSeek V3 - 88.5% 59.1% - 90.2% - -

* Per alcuni modelli non è presente il dato Average in quanto non sono disponibili i valori di alcuni parametri.

Ultimo aggiornamento: Gennaio 2025

Ultime news


OpenAI cancella il lancio di o3 e indica una nuova rotta verso GPT-5

Sam Altman ha illustrato i prossimi passi di OpenAI, annunciando…

OpenAI cancella il lancio di o3 e indica una nuova rotta verso GPT-5
Alibaba collabora con Apple per funzionalità AI sugli iPhone: colosso cinese al +9% in borsa

Apple necessitava di un partner locale e l'ha trovato in…

Alibaba collabora con Apple per funzionalità AI sugli iPhone: colosso cinese al +9% in borsa
L’AI Act nelle imprese, la nostra intervista a Licia Garotti | AI Talks #16

Il 2 febbraio è entrato in vigore l’AI Act e…

L’AI Act nelle imprese, la nostra intervista a Licia Garotti | AI Talks #16
Elon Musk ritirerà la sua proposta d’acquisto se OpenAI resta (in parte) non-profit

La condizione per il ritiro dell'offerta di Elon Musk è…

Elon Musk ritirerà la sua proposta d’acquisto se OpenAI resta (in parte) non-profit
DeepSeek sta spingendo il mercato cinese dei chip

Il successo di DeepSeek favorirà i produttori cinesi di chip…

DeepSeek sta spingendo il mercato cinese dei chip

In Evidenza


Microsoft presenta l’AI L.A.B. 2025 a Milano

Ieri, Microsoft Italia ha presentato il programma AI L.A.B. 2025.…

Microsoft presenta l’AI L.A.B. 2025 a Milano
I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13
OpenAI: anche Mira Murati lascia

L'abbandono di Murati si aggiunge a quelli di Ilya Sutskever,…

OpenAI: anche Mira Murati lascia
L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi
Bambina di 8 anni crea chatbot da sola: la nostra intervista esclusiva al papà

Il video di Faraday è stato visto oltre 2,6 milioni…

Bambina di 8 anni crea chatbot da sola: la nostra intervista esclusiva al papà

Privacy policy| Cookie policy| Cookie setting| © 2025