从 DeepSeek LLM 到 DeepSeek R1 – DeepSeek LLM

从今天的角度来看，DeepSeek 可能还处于探索阶段，与业界的开源模型保持一致，并进行理论研究。不过，从论文中的细节来看，一年后划时代的 R1 诞生的条件已基本具备。

DeepSeek LLM 从初始模型发展到 R1，经历了快速演变。尽管起初不被重视，但在中文和英文评估中表现优异，特别是在数据质量和模型架构上有所创新。DeepSeek 采用了不同于 LLaMA-2 的 MoE 架构，并在后期训练中增强模型能力。未来将继续推动开源模型进步，提升推理和代码能力。

DeepSeek LLM MoE架构 deepseek r1 开源模型推理能力