Panoramica |
DeepSeek V3 è un modello linguistico di grandi dimensioni (LLM) sviluppato dalla startup cinese DeepSeek AI. Con 671 miliardi di parametri totali, di cui 37 miliardi attivati per token, utilizza un’architettura Mixture-of-Experts (MoE) avanzata. Addestrato su 14,8 trilioni di token multilingue, principalmente in inglese e cinese, il modello eccelle in compiti di ragionamento, matematica e programmazione. Supporta una finestra di contesto estesa fino a 128.000 token, consentendo l’elaborazione di sequenze di input molto lunghe. DeepSeek V3 è open-source, promuovendo la trasparenza e l’innovazione nella comunità AI.
|