Trends

News - Trend trimestrale

Volume trimestrale

... ..%

Volume semestrale

... ..%

Leaderboard: comparazione tra modelli

Nella nostra leaderboard, mappiamo i principali modelli di linguaggio sviluppati e rilasciati dalle aziende di punta operanti nel settore dell’intelligenza artificiale. 

La tabella raccoglie i risultati di diverse valutazioni operate attraverso una serie di benchmark in grado di rappresentare in modo comprensivo le funzionalità e i livelli di efficienza dei large language model in esame, dalle abilità matematiche al ‘ragionamento’, fino alla capacità di elaborazione del testo. A ogni modello riportato nella leaderboard è dedicata una pagina di approfondimento. 

La mappatura include modelli gratuiti e a pagamento ed è aggiornata nel tempo, in modo da seguire l’evoluzione e i trend del settore. 

Modello Performance
È la media di tutti i valori delle colonne successive
MMLU (EM)*
Valutazione della comprensione multilinguistica
MATH (EM)*
Dataset di matematica generale
GSM8k (EM)*
Dataset di matematica elementare
HellaSwag (Accuracy)**
Comprensione linguistica
ARC (Accuracy)**
Scienze multistep
WinoGrande (Accuracy)**
Dataset di problemi linguistici
Claude 3 Opus 89% - 73% 95% 95% 96% 88%
GPT-4-1106-preview 84% 72% 80% 93% 95% 96% 88%
GPT-3.5-Turbo-0125 70% 59% 45% 62% 86% 85% 82%
Gemini-1.5-Pro-API-0514 69% 71% 33% 87% 85% - -
Llama-2-70b-chat 63% 58% 32% 70% 85% 56% 77%

*Exact Match (EM): Questa metrica misura la precisione con cui il testo generato da un modello corrisponde esattamente a una risposta campione di riferimento. In altre parole, l'EM valuta se il testo generato è identico al testo di riferimento, senza considerare la precisione o la completezza delle informazioni

**Accuracy: La metrica di accuratezza misura la proporzione di risposte corrette rispetto al totale delle risposte. In questo senso, l'accuratezza tiene conto sia della precisione che della completezza delle informazioni, fornendo una valutazione più ampia delle prestazioni del modello

In Evidenza


Quando le relazioni sono artificiali

Da un partner virtuale a una conversazione con una persona…

Chi fermerà l’AI? Riflessione sull’appello di Musk

Elon Musk e altri mille esperti chiedono una pausa di…

Elon Musk e altri mille esperti: “Allarme intelligenza artificiale”

Elon Musk e altri mille esperti hanno chiesto di sospendere…

Microsoft 365 Copilot, un’AI generativa per la produttività

Microsoft ha lanciato 365 Copilot, un servizio di intelligenza artificiale…

OpenAI rilascia GPT-4, più potente e multimodale

GPT-4 è arrivato. Un modello multimodale e con 100 trilioni…