量子位 ·

Mamba核心作者新作:取代DeepSeek在用的注意力机制，专为推理打造

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

Mamba核心作者Tri Dao提出了两种新注意力机制GTA和GLA，旨在优化推理，解码速度和吞吐量提升2倍，同时减少内存使用，保持模型性能，解决长上下文推理中的内存和计算瓶颈问题。

🎯

❓

GTA和GLA是两种新注意力机制，旨在优化推理效率，解码速度和吞吐量最高提升2倍，同时减少内存使用。

GTA与GQA质量相当，但KV缓存用量减少约50%，在保持模型性能的情况下更有效。

GLA采用双层结构，引入潜在Tokens作为全局上下文的压缩表示，减少KV缓存量。

研究解决了长上下文推理中的内存冗余和计算低效问题，优化了注意力机制。

实验表明，GTA和GLA在多个模型规模上表现优于现有方案，尤其在长上下文场景中。

论文作者均来自普林斯顿大学，研究方向为机器学习和模型深度学习。

🏷️

深度求索回应发送时DeepSeek返回异常回复属于模型特性幻觉不涉及隐私泄露
深度求索（DeepSeek）回应用户反馈，表示输入特殊字符<think>时模型返回无关内容，属于模型幻觉，不涉及隐私泄露。技术团队已修复此问题...
可能出现重大安全漏洞：开源内容管理框架Drupal将在5月20日发布核心安全更新
开源内容管理框架Drupal发布紧急安全通知，将于2026年5月20日发布核心安全更新，修复多个重大漏洞。所有管理员需预留时间进行升级，特别是受支持的版本...
大洗牌！Google 内部确认：Go 正取代 C++，成为 AI Agent 时代的“通用语言”
本文永久链接 – https://tonybai.com/2026/05/21/go-is-the-new-lingua-franca-for-ai-ag...
【GreenWebPage特惠】€14.99/年起享欧亚VPS：香港/日本/英美荷德机房，1Gbps@1TB流量
GreenWebPage现针对AMD系列VPS推出年付5折优惠码，折后最低年付仅需14.99欧元起且支持香港等 […]
后缀数组：比后缀树更实用的选择
后缀数组是一种高效的字符串处理数据结构，由Udi Manber和Gene Myers于1993年提出，旨在降低后缀树的内存占用。后缀数组支持快速模式匹配和...
SpaceX刚刚提交了可能成为史上最大IPO的申请
SpaceX正式向SEC提交S-1招股说明书，计划在纳斯达克上市，可能成为史上最大IPO。2025年，SpaceX收入预计达到186.7亿美元，主要来自S...