DeepSeek-V3.2-Exp:用稀疏注意力实现更高效的长上下文推理

DeepSeek-V3.2-Exp:用稀疏注意力实现更高效的长上下文推理

💡 原文中文,约1500字,阅读约需4分钟。
📝

内容提要

DeepSeek-AI 发布了新模型 DeepSeek-V3.2-Exp,采用稀疏注意力机制(DSA),显著提升长文本任务的训练与推理效率。DSA 通过闪电索引器和细粒度令牌选择,降低计算复杂度,保持模型性能。模型训练分为密集预热和稀疏训练阶段,使用大量上下文数据。测试结果显示,V3.2-Exp 在多项任务中表现稳定,推理成本显著降低,未来将进行大规模真实场景测试。

🎯

关键要点

  • DeepSeek-AI 发布了新模型 DeepSeek-V3.2-Exp,采用稀疏注意力机制(DSA),提升长文本任务的训练与推理效率。
  • 稀疏注意力机制由闪电索引器和细粒度令牌选择机制组成,降低计算复杂度,保持模型性能。
  • 传统注意力机制计算复杂度为 O(L²),而 DSA 降低至 O(L·k),提高了效率。
  • 模型训练分为密集预热和稀疏训练阶段,使用了 128K 长度的上下文数据,训练了近千亿令牌。
  • DeepSeek-V3.2-Exp 在多项基准测试中表现稳定,部分任务有所提升,推理成本显著降低。
  • DSA 基于 DeepSeek 自研的 MLA 架构实现,采用 MQA 模式提升计算效率。
  • DeepSeek-AI 正在推进真实场景中的大规模测试,以验证稀疏注意力架构的鲁棒性与实用性。
  • DeepSeek-V3.2-Exp 展示了一种高效的长上下文处理方案,为大模型降低计算成本提供新思路。

延伸问答

DeepSeek-V3.2-Exp 的主要创新是什么?

DeepSeek-V3.2-Exp 采用了稀疏注意力机制(DSA),显著提升了长文本任务的训练与推理效率。

稀疏注意力机制是如何降低计算复杂度的?

稀疏注意力机制通过闪电索引器和细粒度令牌选择,将计算复杂度从 O(L²) 降低至 O(L·k),其中 k 是相关令牌的数量。

DeepSeek-V3.2-Exp 的训练过程是怎样的?

训练过程分为密集预热阶段和稀疏训练阶段,使用了 128K 长度的上下文数据,训练了近千亿令牌。

DeepSeek-V3.2-Exp 在基准测试中的表现如何?

在多项基准测试中,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平,部分任务有所提升,推理成本显著降低。

DeepSeek-V3.2-Exp 的未来计划是什么?

DeepSeek-AI 正在推进在真实场景中的大规模测试,以验证稀疏注意力架构的鲁棒性与实用性。

稀疏注意力机制的核心组成部分是什么?

稀疏注意力机制主要由闪电索引器和细粒度令牌选择机制组成。

➡️

继续阅读