Panoramica |
DeepSeek R1 è un modello linguistico di grandi dimensioni (LLM) sviluppato dalla startup cinese DeepSeek AI. Rilasciato il 20 gennaio 2025, R1 è progettato per eccellere in compiti di ragionamento complesso, matematica e programmazione. Utilizza un’architettura Mixture of Experts (MoE) con 671 miliardi di parametri totali, attivandone dinamicamente 37 miliardi per token, il che consente un’allocazione efficiente delle risorse computazionali. R1 supporta una finestra di contesto estesa fino a 128.000 token, permettendo l’elaborazione di sequenze di input molto lunghe. Il modello è open-source, promuovendo la trasparenza e l’innovazione nella comunità AI. |