结构之法算法之道 ·

一文通透DeepSeek-V2(改造Transformer的中文模型)：详解MoE、GRPO、MLA

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

本文介绍了DeepSeek-V2中的MHA创新点，包括MLA降低KV Cache开销，FFN结构改为DeepseekMoE，以及MLA对Query和Key的压缩和RoPE编码。

🎯

❓

DeepSeek-V2的主要创新点是Multi-head Latent Attention（MLA），旨在降低KV Cache的开销。

KV Cache是推理过程中显存消耗的主要原因，DeepSeek-V2通过MLA优化了KV Cache的使用，降低了资源开销。

DeepSeek-V2通过RoPE编码提高了推理效率，避免了对Key进行位置编码的计算。

DeepSeek-V2的参数规模为236B，支持128K的上下文。

MLA通过低秩联合压缩技术对Key和Value进行压缩，降低推理中的资源开销。

DeepSeek-V2的KV缓存性能优于传统的多头注意力（MHA），但显存占用更低。

🏷️

小样本生物医学研究新突破，德国团队基于生成式AI模型实现数据增强，或减少30-50%实验动物用量
研究表明，传统小样本生物医学研究存在统计效力不足的问题。德国法兰克福大学研发的genESOM生成式AI模型，通过分离结构学习与数据生成，有效恢复小样本中的...
Cursor新模型，你怎么还在套Kimi？马斯克你怎么还吆喝上了？？
Cursor发布了新模型Composer 2.5，成本仅为Opus 4.7的1/10，性能接近Opus 4.7。新模型在长时间任务和复杂指令执行上表现更佳...
Cursor Composer 2.5发布：SpaceXAI算力+国产Kimi模型
Cursor发布的Composer 2.5模型通过扩大训练规模、改进强化学习和引入文本反馈，效率提升10倍，能够处理长达几十万个词的任务。与SpaceXA...
用于编码代理的可维护性传感器
In her recent article about harness engineering for coding agent users, ...
谷歌I/O 2026 直播博客：现场报道谷歌的主题演讲
谷歌I/O 2026大会将在加州举行，重点关注AI搜索、代理、编码和电子商务等未来趋势。谷歌需要突出Gemini，以与OpenAI的ChatGPT和Ant...
A free VPN you can trust, now built into Firefox
Today we’re introducing a free built-in VPN in Firefox, a new IP-protection f...