$一文通透Native Sparse Attention(简称NSA)——动态分层下的“原生稀疏注意力”策略：将粗粒度的token压缩与细粒度的token选择相结合$

结构之法算法之道 ·

一文通透Native Sparse Attention(简称NSA)——动态分层下的“原生稀疏注意力”策略：将粗粒度的token压缩与细粒度的token选择相结合

💡 原文中文，约8700字，阅读约需21分钟。

📝

内容提要

DeepSeek R1引起关注，研究者提出新注意力机制NSA，旨在提高长上下文处理效率。NSA结合硬件优化与可训练设计，克服现有稀疏注意力方法的局限性，提升模型性能与训练效率。

🎯

❓

Native Sparse Attention（NSA）是一种新型的稀疏注意力机制，旨在提高长上下文处理效率，结合硬件优化与可训练设计。

NSA通过硬件对齐和训练感知设计，优化了稀疏注意力机制，提升了模型性能与训练效率。

NSA的核心创新包括硬件对齐系统和训练感知设计，确保高效部署和端到端训练的稳定性。

NSA引入了压缩、选择和滑动窗口三种映射策略，以优化注意力计算。

NSA在训练和推理阶段都能实现与Flash Attention相当的加速效果，提升了整体效率。

NSA通过优化块状稀疏注意力，降低每个查询的计算量，从而有效处理长上下文的计算挑战。

🏷️

Google LiteRT-LM Speeds Up Local Inference Up to 2.2x With Gemma 4 Multi-Token Prediction
LiteRT-LM brings native support for Gemma 4 Multi-Token Prediction (MTP) draf...
为什么中端市场买家正在重新思考他们的 UCaaS 策略
中型企业正在重新审视通信平台，强调集成、运营效率和合规性。它们快速采用统一通信（UC）平台，但面临资源不足的挑战。集成与行业特定系统的兼容性成为关键，许多...
模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...
教你薅token（二）：构建agent无关的skills管理工作流
本文介绍了pks（个人技能管理器），一个用纯bash编写的工具，旨在管理AI工作流文档。pks允许用户集中管理特定项目的技能，如编码规范和API设计，并按...
我用彩色配件定制了一台MacBook Neo
苹果的MacBook Neo是最便宜、色彩丰富且易于维修的笔记本电脑。用户可以自行更换彩色配件，尽管成本较高。作者尝试定制Neo，替换触控板、底壳和键帽，...
论独立游戏的起步立项方法论
在当下这个互联网时代做独立游戏，是幸运的，得益于各路大佬的经验分享，诸如引擎选择、外包渠道、素材获取，编程整合 […]