Nella nostra leaderboard, mappiamo i principali modelli di linguaggio sviluppati e rilasciati dalle aziende di punta operanti nel settore dell’intelligenza artificiale.
La tabella raccoglie i risultati di diverse valutazioni operate attraverso una serie di benchmark in grado di rappresentare in modo comprensivo le funzionalità e i livelli di efficienza dei large language model in esame, dalle abilità matematiche al ‘ragionamento’, fino alla capacità di elaborazione del testo. A ogni modello riportato nella leaderboard è dedicata una pagina di approfondimento.
La mappatura include modelli gratuiti e a pagamento ed è aggiornata nel tempo, in modo da seguire l’evoluzione e i trend del settore.
Modello |
Average* Punteggio medio delle prestazioni complessive |
MMLU (General) Comprensione multi-task su vari argomenti |
GPQA (Reasoning) Capacità di ragionamento e deduzione |
HumanEval (Coding) Competenze nella programmazione |
Math Risoluzione di problemi matematici |
BFCL (Tool Use) Uso efficace di strumenti esterni |
MGSM (Multilingual) Comprensione e generazione multilingue |
Claude 3.5 Sonnet |
84.5% |
88.3% |
65% |
93.7% |
78.3% |
90.2% |
91.6% |
GPT-4o |
80.5% |
88.7% |
53.6% |
90.2% |
76.6% |
83.5% |
90.5% |
OpenAI o1 |
- |
91.8% |
75.7% |
92.4% |
96.4% |
- |
89.3% |
GPT-4o Mini |
- |
82% |
40.2% |
87.2% |
70.2% |
- |
87% |
Llama 3.1 405b |
80.4% |
88.6% |
51.1% |
89% |
73.8% |
88.5% |
91.6% |
GPT 3.5 Turbo |
59.2% |
69.8% |
30.8% |
68% |
34.1% |
64.4% |
56.3% |
Gemini 1.5 Pro |
74.1% |
85.9% |
46.2% |
71.9% |
67.7% |
84.3% |
88.7% |
Llama-3.3 70b |
74.5% |
86% |
48% |
88.4% |
77% |
77.5% |
91.1% |
DeepSeek R1 |
- |
90.8% |
71.5% |
- |
97.3% |
- |
- |
DeepSeek V3 |
- |
88.5% |
59.1% |
- |
90.2% |
- |
- |
* Per alcuni modelli non è presente il dato Average in quanto non sono disponibili i valori di alcuni parametri.
Ultimo aggiornamento: Gennaio 2025