撞车DeepSeek NSA，Kimi杨植麟署名的新注意力架构MoBA发布，代码也公开

机器之心 ·

撞车DeepSeek NSA，Kimi杨植麟署名的新注意力架构MoBA发布，代码也公开

💡 原文中文，约5300字，阅读约需13分钟。

📝

内容提要

月之暗面发布了名为MoBA的注意力机制论文，提出通过块稀疏注意力提升大语言模型（LLM）处理长序列的效率。MoBA结合混合专家原理，动态选择关注的上下文块，显著降低计算成本并提升性能。实验结果显示，MoBA在处理长文本时表现优异，效率较传统注意力机制显著提高。

🎯

关键要点

月之暗面发布了名为MoBA的注意力机制论文，旨在提升大语言模型处理长序列的效率。
MoBA结合混合专家原理，动态选择关注的上下文块，显著降低计算成本并提升性能。
MoBA遵循“更少结构”原则，让模型自主决定关注哪些位置，避免引入预定义偏见。
传统注意力机制的计算复杂度呈二次函数增长，扩展LLM的序列长度面临挑战。
现有方法通常依赖于预定义结构，限制了模型的整体泛化能力。
MoBA通过块稀疏注意力机制解决了传统注意力计算效率低下的问题。
MoBA允许动态选择与每个查询token相关的历史关键块和值块，提高了LLM的效率。
MoBA的设计使得模型能够在完全注意力和稀疏注意力模式之间无缝切换。
实验结果显示，MoBA在处理长文本时表现优异，效率较传统注意力机制显著提高。
MoBA的高性能版本整合了FlashAttention和MoE的优化技术，显著提升了计算效率。
MoBA在处理1M token时比Full Attention模型快6.5倍，扩展到1000万token时实现了16倍加速。
MoBA的优势在序列长度增加时更为明显，特别适合处理超长文本场景。

❓

延伸问答

MoBA注意力机制的主要创新点是什么？

MoBA将混合专家原理应用于注意力机制，允许动态选择与每个查询token相关的历史关键块，从而提高处理长序列的效率。

MoBA如何提高大语言模型的效率？

MoBA通过块稀疏注意力机制，动态选择关注的上下文块，显著降低计算成本并提升性能，尤其在处理长文本时表现优异。

MoBA与传统注意力机制相比有什么优势？

MoBA的计算复杂度从二次方降低到亚二次方级别，能够在处理长序列时显著提高速度和效率，特别适合超长文本。

MoBA的设计原则是什么？

MoBA遵循“更少结构”原则，让模型自主决定关注哪些位置，避免引入预定义偏见。

MoBA在处理长文本时的实验结果如何？

实验显示，MoBA在处理1M token时比Full Attention模型快6.5倍，扩展到1000万token时实现了16倍加速。

MoBA的实现过程包含哪些步骤？

MoBA的实现过程包括确定查询token对KV块的分配、安排查询token顺序、计算注意力输出、重新排列输出和合并注意力输出。

🏷️

继续阅读

Anthropic：RSI递归循环正在超预期加速
Anthropic报告指出，人工智能（AI）正在迅速自我改进，能够独立编写代码和修复bug，效率显著提升。预计到2026年，AI的代码产出将相当于八名工程...
什么是 AI 对话开发？AI 对话开发有什么用途？(2026 完整指南)
AI对话开发结合语音识别、大语言模型和语音合成，能够与用户自然交流，广泛应用于智能客服、AI陪伴和在线教育等领域。与传统聊天机器人不同，AI对话能够理解上...
他们是由权重构成的：一篇让你重新思考AI与人类的文章
本文探讨了大语言模型的核心原理，强调知识和推理能力分布在权重网络中，而非独立模块。通过类比人类大脑，讨论了意识的涌现理论及人类对AI的情感投射，指出人类对...
人工智能没有意识：华裔科幻作家拆穿AI人格化背后认知陷阱
特德·姜批评AI人格化，认为大语言模型如Claude仅是文字续写机器，并无意识。他指出，将AI视为有感情的存在会模糊责任归属，导致人类逃避道德责任。真正的...
请求的路径：现代网页架构之旅
现代网页架构中，用户请求在加载网页时可能经过多个系统，每一层都旨在处理流量，形成漏斗，确保大部分流量在到达数据库前已被处理。理解每一层的功能和权衡，有助于...
线上剧本杀「多房间 + 多角色 + 强流程」的实时音视频架构
线上剧本杀结合多房间、角色权限和严格流程，技术复杂度高于普通视频聊天。关键在于动态音频拓扑、信息隔离和流程引擎。DM可控制房间和广播信息，玩家可在不同房间...