Trends
News - Trend trimestrale
Volume trimestrale
Volume semestrale
Nella nostra leaderboard, mappiamo i principali modelli di linguaggio sviluppati e rilasciati dalle aziende di punta operanti nel settore dell’intelligenza artificiale.
La tabella raccoglie i risultati di diverse valutazioni operate attraverso una serie di benchmark in grado di rappresentare in modo comprensivo le funzionalità e i livelli di efficienza dei large language model in esame, dalle abilità matematiche al ‘ragionamento’, fino alla capacità di elaborazione del testo. A ogni modello riportato nella leaderboard è dedicata una pagina di approfondimento.
La mappatura include modelli gratuiti e a pagamento ed è aggiornata nel tempo, in modo da seguire l’evoluzione e i trend del settore.
Modello | Performance È la media di tutti i valori delle colonne successive |
MMLU (EM)* Valutazione della comprensione multilinguistica |
MATH (EM)* Dataset di matematica generale |
GSM8k (EM)* Dataset di matematica elementare |
HellaSwag (Accuracy)** Comprensione linguistica |
ARC (Accuracy)** Scienze multistep |
WinoGrande (Accuracy)** Dataset di problemi linguistici |
---|---|---|---|---|---|---|---|
Claude 3 Opus | 89% | - | 73% | 95% | 95% | 96% | 88% |
GPT-4-1106-preview | 84% | 72% | 80% | 93% | 95% | 96% | 88% |
GPT-3.5-Turbo-0125 | 70% | 59% | 45% | 62% | 86% | 85% | 82% |
Gemini-1.5-Pro-API-0514 | 69% | 71% | 33% | 87% | 85% | - | - |
Llama-2-70b-chat | 63% | 58% | 32% | 70% | 85% | 56% | 77% |
*Exact Match (EM): Questa metrica misura la precisione con cui il testo generato da un modello corrisponde esattamente a una risposta campione di riferimento. In altre parole, l'EM valuta se il testo generato è identico al testo di riferimento, senza considerare la precisione o la completezza delle informazioni
**Accuracy: La metrica di accuratezza misura la proporzione di risposte corrette rispetto al totale delle risposte. In questo senso, l'accuratezza tiene conto sia della precisione che della completezza delle informazioni, fornendo una valutazione più ampia delle prestazioni del modello
In Evidenza
Da un partner virtuale a una conversazione con una persona…
Elon Musk e altri mille esperti chiedono una pausa di…
Elon Musk e altri mille esperti hanno chiesto di sospendere…
Microsoft ha lanciato 365 Copilot, un servizio di intelligenza artificiale…
GPT-4 è arrivato. Un modello multimodale e con 100 trilioni…