我爱自然语言处理 ·

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

DeepSeek-AI 发布了新模型 DeepSeek-V3.2-Exp，采用稀疏注意力机制（DSA），显著提升长文本任务的训练与推理效率。DSA 通过闪电索引器和细粒度令牌选择，降低计算复杂度，保持模型性能。模型训练分为密集预热和稀疏训练阶段，使用大量上下文数据。测试结果显示，V3.2-Exp 在多项任务中表现稳定，推理成本显著降低，未来将进行大规模真实场景测试。

🎯

关键要点

DeepSeek-AI 发布了新模型 DeepSeek-V3.2-Exp，采用稀疏注意力机制（DSA），提升长文本任务的训练与推理效率。
稀疏注意力机制由闪电索引器和细粒度令牌选择机制组成，降低计算复杂度，保持模型性能。
传统注意力机制计算复杂度为 O(L²)，而 DSA 降低至 O(L·k)，提高了效率。
模型训练分为密集预热和稀疏训练阶段，使用了 128K 长度的上下文数据，训练了近千亿令牌。
DeepSeek-V3.2-Exp 在多项基准测试中表现稳定，部分任务有所提升，推理成本显著降低。
DSA 基于 DeepSeek 自研的 MLA 架构实现，采用 MQA 模式提升计算效率。
DeepSeek-AI 正在推进真实场景中的大规模测试，以验证稀疏注意力架构的鲁棒性与实用性。
DeepSeek-V3.2-Exp 展示了一种高效的长上下文处理方案，为大模型降低计算成本提供新思路。

❓

延伸问答

DeepSeek-V3.2-Exp 的主要创新是什么？

DeepSeek-V3.2-Exp 采用了稀疏注意力机制（DSA），显著提升了长文本任务的训练与推理效率。

稀疏注意力机制是如何降低计算复杂度的？

稀疏注意力机制通过闪电索引器和细粒度令牌选择，将计算复杂度从 O(L²) 降低至 O(L·k)，其中 k 是相关令牌的数量。

DeepSeek-V3.2-Exp 的训练过程是怎样的？

训练过程分为密集预热阶段和稀疏训练阶段，使用了 128K 长度的上下文数据，训练了近千亿令牌。

DeepSeek-V3.2-Exp 在基准测试中的表现如何？

在多项基准测试中，DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平，部分任务有所提升，推理成本显著降低。

DeepSeek-V3.2-Exp 的未来计划是什么？

DeepSeek-AI 正在推进在真实场景中的大规模测试，以验证稀疏注意力架构的鲁棒性与实用性。

稀疏注意力机制的核心组成部分是什么？

稀疏注意力机制主要由闪电索引器和细粒度令牌选择机制组成。

🏷️

继续阅读

给 WordPress 7.0 的 AI 连接功能加上 DeepSeek 支持
WordPress 7.0 更新了 AI 连接功能，但仅支持国外提供商。为此，开发者推出了 WPJAM AI 插件，支持国内的 DeepSeek 等模型。...
DeepSeek首轮500亿元融资细节曝光：估值4000亿，腾讯、宁德时代都来了
国内AI企业DeepSeek即将完成首轮融资，计划募资约500亿元，投资方包括腾讯和宁德时代。融资后估值预计达3500亿至4000亿元。创始人梁文锋将投入...
早报｜微软发布Windows「梦中神机」/腾讯云DeepSeek-V4最高降价97.5%/徕卡相机或被中国资本收购
微软在Build 2026大会上发布了七款自研AI模型，涵盖推理、代码、图像和语音等领域，并推出了强大算力的开发者设备“梦中神机”。OpenAI扩展Cod...
微软押注企业AI竞赛将依赖数据上下文而非模型能力
微软在Build 2026开发者大会上推出了Microsoft Fabric，旨在解决企业AI中的数据上下文问题。新平台包括HorizonDB数据库、GP...
微软首款高级推理人工智能问世
微软在2026年Build大会上发布了多款新AI模型，旗舰模型MAI-Thinking-1是其自主开发的重要进展，表现优异，基于干净数据训练。此外，还推出...
在人工智能代理时代，CPU为何仍然重要
文章讨论了CPU在人工智能基础设施中的重要性，特别是在聊天机器人向自主代理转变的过程中。Google的Farhat和Arm的Patel指出，CPU在任务执...