一文通透DeepSeek-V2(改造Transformer的中文模型):详解MoE、GRPO、MLA

💡 原文中文,约3600字,阅读约需9分钟。
📝

内容提要

本文介绍了DeepSeek-V2中的MHA创新点,包括MLA降低KV Cache开销,FFN结构改为DeepseekMoE,以及MLA对Query和Key的压缩和RoPE编码。

🎯

关键要点

  • DeepSeek-V2的参数规模为236B,支持128K上下文,使用高质量多源预训练语料库。
  • DeepSeek-V2的主要创新点是Multi-head Latent Attention(MLA),旨在降低KV Cache的开销。
  • KV Cache是推理过程中显存消耗的主要原因,需要优化以减少重复计算。
  • MLA通过低秩联合压缩技术对Key和Value进行压缩,降低推理中的资源开销。
  • MLA的两个部分分别负责对Query和Key进行压缩和RoPE编码。
  • RoPE编码提高了推理效率,避免了对Key进行位置编码的计算。
  • DeepSeek-V2的KV缓存性能优于传统的多头注意力(MHA),但显存占用更低。
➡️

继续阅读