💡
原文中文,约1500字,阅读约需4分钟。
📝
内容提要
DeepSeek-AI 发布了新模型 DeepSeek-V3.2-Exp,采用稀疏注意力机制(DSA),显著提升长文本任务的训练与推理效率。DSA 通过闪电索引器和细粒度令牌选择,降低计算复杂度,保持模型性能。模型训练分为密集预热和稀疏训练阶段,使用大量上下文数据。测试结果显示,V3.2-Exp 在多项任务中表现稳定,推理成本显著降低,未来将进行大规模真实场景测试。
🎯
关键要点
- DeepSeek-AI 发布了新模型 DeepSeek-V3.2-Exp,采用稀疏注意力机制(DSA),提升长文本任务的训练与推理效率。
- 稀疏注意力机制由闪电索引器和细粒度令牌选择机制组成,降低计算复杂度,保持模型性能。
- 传统注意力机制计算复杂度为 O(L²),而 DSA 降低至 O(L·k),提高了效率。
- 模型训练分为密集预热和稀疏训练阶段,使用了 128K 长度的上下文数据,训练了近千亿令牌。
- DeepSeek-V3.2-Exp 在多项基准测试中表现稳定,部分任务有所提升,推理成本显著降低。
- DSA 基于 DeepSeek 自研的 MLA 架构实现,采用 MQA 模式提升计算效率。
- DeepSeek-AI 正在推进真实场景中的大规模测试,以验证稀疏注意力架构的鲁棒性与实用性。
- DeepSeek-V3.2-Exp 展示了一种高效的长上下文处理方案,为大模型降低计算成本提供新思路。
❓
延伸问答
DeepSeek-V3.2-Exp 的主要创新是什么?
DeepSeek-V3.2-Exp 采用了稀疏注意力机制(DSA),显著提升了长文本任务的训练与推理效率。
稀疏注意力机制是如何降低计算复杂度的?
稀疏注意力机制通过闪电索引器和细粒度令牌选择,将计算复杂度从 O(L²) 降低至 O(L·k),其中 k 是相关令牌的数量。
DeepSeek-V3.2-Exp 的训练过程是怎样的?
训练过程分为密集预热阶段和稀疏训练阶段,使用了 128K 长度的上下文数据,训练了近千亿令牌。
DeepSeek-V3.2-Exp 在基准测试中的表现如何?
在多项基准测试中,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平,部分任务有所提升,推理成本显著降低。
DeepSeek-V3.2-Exp 的未来计划是什么?
DeepSeek-AI 正在推进在真实场景中的大规模测试,以验证稀疏注意力架构的鲁棒性与实用性。
稀疏注意力机制的核心组成部分是什么?
稀疏注意力机制主要由闪电索引器和细粒度令牌选择机制组成。
➡️