机器之心 ·

刚刚！DeepSeek梁文锋亲自挂名，公开新注意力架构NSA

💡 原文中文，约6000字，阅读约需15分钟。

📝

内容提要

DeepSeek 发布了一种名为 NSA 的稀疏注意力机制，旨在提高长上下文的训练和推理效率。该机制通过硬件对齐和可训练设计，显著降低计算开销，同时保持性能。实验结果表明，NSA 在多个基准测试中表现优异，尤其在长上下文任务中展现出卓越的能力和加速效果。

🎯

❓

NSA旨在提高长上下文的训练和推理效率。

NSA通过硬件对齐和可训练设计，选择性计算关键query-key对，显著降低计算开销。

NSA在多个基准测试中表现优异，尤其在长上下文任务中展现出卓越的能力和加速效果。

NSA能够高效捕捉长距离逻辑依赖关系，支持复杂推理任务。

在64k上下文长度下，NSA实现了9.0倍的前向加速和6.0倍的反向加速。

NSA通过分层token建模和稀疏注意力设计，显著降低了计算复杂性和延迟瓶颈。

🏷️

刚刚，GPT-5.5 发布！Claude Code 连夜治好降智，「奥特曼瘫倒」喜提续集
Anthropic 的估值已超过 1 万亿美元，OpenAI 面临压力。GPT-5.5 发布，提升了推理效率，能够更好地处理复杂任务，表现优于前代。评测显...
扒完 DeepSeek V4 报告，我翻出了这个隐藏彩蛋
DeepSeek V4 和 Kimi 2.6 的发布标志着中国开源 AI 的新高峰。V4 引入 Muon 优化器，提升训练效率，并适配华为芯片。这两款产品...
PPIO首批上线DeepSeek-V4预览版，1M超长上下文能力开箱即用
DeepSeek-V4预览版正式推出，包含V4-Pro和V4-Flash两个版本，提供百万字上下文和顶尖Agent能力。PPIO成为首批上线平台，致力于为...
DeepSeek-V4发布，华为云首发适配
华为云于4月24日发布并开源DeepSeek-V4模型，该模型支持百万Token超长上下文，提升了推理性能和经济性。新模型已被金山办公、360等企业接入，...
中国DeepSeek预览新一代AI模型，距震撼美国竞争对手已一年
中国AI公司DeepSeek发布了其下一代AI模型V4，声称该模型在编码能力上有显著提升，并与美国领先系统竞争，兼容华为技术，标志着中国芯片产业的重要进步。
PPIO首批上线DeepSeek-V4预览版，1M超长上下文能力开箱即用
DeepSeek-V4正式推出并开源，包含V4-Pro和V4-Flash两个版本，具备强大的AI能力。PPIO成为首批上线平台，支持百万字上下文处理和高效...