量子位 ·

DeepSeek下一代技术提前曝光，梁文锋署名论文获ACL2025最佳论文奖

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

DeepSeek的梁文锋团队在ACL 2025获得最佳论文奖，提出了原生稀疏注意力（NSA）机制，处理长文本的速度提升了11倍，性能超越传统模型。NSA通过动态分层策略优化计算，显著提高推理和训练效率，尤其在复杂推理任务中表现突出。

🎯

🔎

原生稀疏注意力（NSA）机制的提出，标志着长文本处理技术的重大突破。通过动态分层的稀疏策略，NSA不仅提升了处理速度，还在准确性上超越了传统模型。这一创新为未来的自然语言处理应用提供了新的可能性，尤其是在复杂推理任务中，NSA的优势将更加明显。

NSA机制的成功应用预计将推动下一代前沿模型的发展，如DeepSeek-V4和DeepSeek-R2。这些模型将能够处理更长的上下文，提升在多跳问答和代码理解等复杂任务中的表现。随着技术的不断成熟，NSA有望在实际应用中解决更多现实问题，尤其是在需要高效处理大规模文本的场景中。

在多项基准测试中，NSA机制的表现显著优于全注意力模型，尤其是在推理相关的任务上。这表明，NSA不仅在速度上有优势，更在处理复杂信息时展现出更强的能力。这一结果为未来的模型设计提供了重要参考，强调了在算法优化中兼顾速度与准确性的必要性。

❓

NSA机制通过动态分层策略优化计算，显著提高长文本处理速度和性能，超越传统全注意力模型。

NSA机制将长文本处理速度提升了11倍，解码阶段速度提升11.6倍。

NSA通过压缩注意力、选择性注意力和滑动注意力三条分支协同工作，优化了计算密度。

因其提出的NSA机制在长文本处理和复杂推理任务中表现优异，超越了传统模型。

NSA在9个评测指标中有7个超越全注意力基线，特别是在复杂推理任务上表现突出。

NSA机制可以将上下文长度扩展到1百万tokens。

🏷️