一文通透DeepSeek-V2(改造Transformer的中文模型):详解MoE、GRPO、MLA
💡
原文中文,约3600字,阅读约需9分钟。
📝
内容提要
本文介绍了DeepSeek-V2中的MHA创新点,包括MLA降低KV Cache开销,FFN结构改为DeepseekMoE,以及MLA对Query和Key的压缩和RoPE编码。
🎯
关键要点
- DeepSeek-V2的参数规模为236B,支持128K上下文,使用高质量多源预训练语料库。
- DeepSeek-V2的主要创新点是Multi-head Latent Attention(MLA),旨在降低KV Cache的开销。
- KV Cache是推理过程中显存消耗的主要原因,需要优化以减少重复计算。
- MLA通过低秩联合压缩技术对Key和Value进行压缩,降低推理中的资源开销。
- MLA的两个部分分别负责对Query和Key进行压缩和RoPE编码。
- RoPE编码提高了推理效率,避免了对Key进行位置编码的计算。
- DeepSeek-V2的KV缓存性能优于传统的多头注意力(MHA),但显存占用更低。
➡️