$一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA)：让q跟最相关的k/v做注意力计算，以降低MLA的计算量$

结构之法算法之道 ·

一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA)：让q跟最相关的k/v做注意力计算，以降低MLA的计算量

💡 原文中文，约6700字，阅读约需16分钟。

📝

内容提要

DeepSeek-V3.2引入了稀疏注意力机制（DSA），优化了长文本处理的效率。通过闪电索引器和细粒度选择机制，DSA减少了计算量并提升了模型性能。该版本在持续预训练和后训练中结合专家蒸馏和强化学习，显著提高了推理效率和稳定性。

🎯

❓

DeepSeek-V3.2的稀疏注意力机制通过闪电索引器和细粒度选择机制，显著减少了计算量，提高了长文本处理的效率。

DeepSeek-V3.2结合专家蒸馏和强化学习，在持续预训练和后训练中优化模型参数，从而显著提高推理效率和稳定性。

闪电索引器是DeepSeek-V3.2中的一个组件，用于快速扫描全局并选出与查询token最相关的Top-K个Token，从而提高计算效率。

持续预训练阶段主要使用稠密预热和稀疏训练，而后训练阶段则结合专家蒸馏和混合强化学习，针对特定领域进行优化。

通过引入稀疏注意力机制和细粒度的token选择，DeepSeek-V3.2能够在处理长文本时显著降低计算复杂度。

GRPO算法用于强化学习训练，通过优化策略模型，平衡不同领域的性能，并避免多阶段训练中的灾难性遗忘问题。

🏷️

Mythos架构被22岁小伙“逆推”开源了！MoE和注意力借鉴DeepSeek
OpenMythos是一种新型的循环深度Transformer架构，采用MoE路由机制，通过跨专家权重共享实现高效推理。在参数量减少近一半的情况下，其性能...
大模型架构的下半场
华中科技大学的研究团队提出了Flash Depth Attention和混合深度注意力（MoDA），旨在改善深度学习模型中层间的通信能力。新方法通过引入注...
DeepSeek融资别急着冲！100亿美金估值最危险的是退出难！
DeepSeek正在进行3亿美元融资，估值达到100亿美元。融资原因包括人才流失、监管收紧及V4发布压力。尽管估值看似合理，投资者需警惕退出困难，可能面临...
大规模自主AI：Adobe代理与NVIDIA和WPP解锁突破性的创意智能
Adobe与NVIDIA和WPP合作，推动自主AI在创意营销中的应用。品牌通过智能系统快速生成个性化内容，提升客户体验。NVIDIA的OpenShell运...
在数据与人工智能峰会上亲身体验代理、氛围编码等更多内容
Databricks将在2026年6月14日至18日于旧金山举办数据与人工智能峰会，提供新培训课程和认证。提前注册可享受50%折扣，现场认证考试费用为10...
Pretext.js Bypasses DOM Layout Reflow, Enabling Advanced UX Patterns at 120 FPS
Cheng Lou, a Midjourney engineer, recently released Pretext, a 15KB open-sour...