DeepSeek ha presentato il suo più recente modello linguistico di grandi dimensioni: DeepSeek-V3-0324. Con un peso pari a 641 gigabyte, un elemento distintivo del modello è la sua licenza MIT, che ne permette l’utilizzo commerciale senza alcun costo.
I primi test, come segnalato dalla società cinese, hanno evidenziato la capacità del modello di operare su hardware di livello consumer. In particolare, il ricercatore Awni Hannun ha riportato una velocità di elaborazione superiore a 20 token al secondo, a dimostrazione che anche un modello di tale complessità può funzionare su sistemi hardware standard.
DeepSeek ha inoltre sottolineato che le valutazioni iniziali hanno evidenziato un notevole miglioramento rispetto alle versioni precedenti. Il modello avrebbe ottenuto prestazioni persino superiori a Claude Sonnet di Anthropic in attività non legate al ragionamento.

Anthropic lancia Claude 3.7 Sonnet, verso un finanziamento da 3,5 miliardi
Oltre a Claude 3.7 Sonnet, Anthropic ha presentato anche Claude…
Diversamente dai modelli in abbonamento, però, DeepSeek-V3-0324 è disponibile gratuitamente, scaricabile da Hugging Face e utilizzabile senza costi aggiuntivi.
Come funziona DeepSeek-V3?
Dal punto di vista tecnico, il modello si avvale anche di un’architettura “mixture-of-experts” (MoE) che seleziona, per ogni compito, circa 37 miliardi dei suoi 685 miliardi di parametri, ottimizzando così l’efficienza e riducendo le richieste computazionali senza comprometterne le prestazioni.