量子位 ·

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

💡 原文中文，约3000字，阅读约需7分钟。

📝

内容提要

微软与清华团队提出改进版Differential Transformer，通过差分注意力替代传统softmax，解决了传统Transformer的噪声问题，显著提升了长上下文建模和信息检索任务的性能，模型参数需求减少至65%。实验结果表明，DIFF Transformer在准确性和稳定性上优于传统模型，代码已开源。

🎯

关键要点

微软与清华团队提出改进版Differential Transformer，解决传统Transformer的噪声问题。
通过差分注意力替代传统softmax，显著提升长上下文建模和信息检索任务的性能。
DIFF Transformer模型参数需求减少至65%，在准确性和稳定性上优于传统模型。
DIFF Transformer在长上下文能力、关键信息检索、上下文学习能力等方面表现优异。
差分注意力模块通过对Q和K分组计算softmax，增强了注意力机制的效果。
DIFF Transformer在多样本分类和上下文学习的稳健性上均优于传统Transformer。
在激活异常值分析中，DIFF Transformer表现出更低的顶部激活值，减少了激活异常值。
DIFF Transformer的代码已开源，相关讨论引发了学术界的广泛关注。

🏷️

继续阅读

学习周刊-总第260期-2026年第17周
本周刊聚焦运维、Go语言和Vue技术生态，推荐多个优秀项目，包括K8S多集群管理工具、实验性Homebrew替代方案、轻量级动态网络管理工具和开源语音输入...
PPIO首批上线DeepSeek-V4预览版，1M超长上下文能力开箱即用
DeepSeek-V4正式推出并开源，包含V4-Pro和V4-Flash两个版本，具备强大的AI能力。PPIO成为首批上线平台，支持百万字上下文处理和高效...
DeepSeek-V4终于发布：1M上下文重塑AI成本结构与Agent编程范式
DeepSeek-V4发布，采用开源与MoE架构，实现低成本高性能，提升应用开发效率。Pro与Flash版本满足不同需求，Agent能力使模型从工具升级为...
推荐一个开箱即用的.NET权限管理平台：Magic.NET
Magic.NET是一个基于.NET 6/7的开源权限管理平台，支持前后端分离，适用于企业后台管理。核心功能包括用户、角色、菜单管理及实时通讯，使用简单，...
‘我们是Xbox’：阅读定义微软游戏未来的备忘录
微软新任Xbox首席执行官Asha Sharma提出了“Xbox回归”战略，强调以日活跃玩家为核心，重视硬件、内容、体验和服务。她承认未能满足玩家对新功能...
微软新任Xbox首席正在‘重新评估’独占游戏
微软新任Xbox首席Asha Sharma在全员会议上提出“Xbox回归”战略，计划重新评估Xbox独占游戏及其发布窗口。尽管Xbox开始将游戏移植到Pl...

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

内容提要

关键要点

标签

继续阅读