机器之心 ·

这篇论文非常火！差分Transformer竟能消除注意力噪声，犹如降噪耳机

💡 原文中文，约4900字，阅读约需12分钟。

📝

内容提要

差分 Transformer 是由微软研究院和清华大学提出的新架构，解决了传统 Transformer 的注意力噪声问题。通过差分注意力机制，模型更好地关注关键信息，提升上下文建模能力。实验显示，其在语言建模、信息检索等任务中表现优于传统模型，并具备更好的扩展性和稳健性，同时支持低位宽量化，实现高效计算。

🎯

关键要点

差分 Transformer 是由微软研究院和清华大学提出的新架构，旨在解决传统 Transformer 的注意力噪声问题。
差分注意力机制能够增强模型对关键信息的关注，提升上下文建模能力。
差分 Transformer 在语言建模、信息检索等任务中表现优于传统模型，具备更好的扩展性和稳健性。
差分 Transformer 使用差分注意力替代传统的 softmax 注意力，保持整体架构不变。
差分注意力机制通过一对 softmax 函数消除注意力噪声，类似于电气工程中的降噪耳机和差分放大器。
多头差分注意力机制对各个头使用不同的投影矩阵，且标量在同一层内的头之间共享。
差分 Transformer 在语言建模评估中表现优于传统 Transformer，尤其在大规模模型和长上下文情况下。
在信息检索任务中，差分 Transformer 的多针检索准确度高于传统 Transformer，尤其在针数量较多时。
差分 Transformer 在上下文学习能力和上下文幻觉现象上均优于传统 Transformer，表现出更好的稳健性。
差分 Transformer 能降低激活异常值的幅度，可能实现更低的量化位宽，支持高效计算。

❓

延伸问答

差分 Transformer 是什么？

差分 Transformer 是一种新型的模型架构，由微软研究院和清华大学提出，旨在解决传统 Transformer 的注意力噪声问题。

差分注意力机制如何工作？

差分注意力机制通过一对 softmax 函数消除注意力噪声，增强模型对关键信息的关注。

差分 Transformer 在语言建模中表现如何？

差分 Transformer 在语言建模评估中表现优于传统 Transformer，尤其在大规模模型和长上下文情况下。

差分 Transformer 如何提高信息检索的准确性？

在信息检索任务中，差分 Transformer 的多针检索准确度高于传统 Transformer，尤其在针数量较多时表现更佳。

差分 Transformer 的扩展性如何？

差分 Transformer 的可扩展性优于传统 Transformer，仅需后者 65% 左右的模型大小或训练 token 数量即可达到相似性能。

差分 Transformer 如何处理激活异常值？

差分 Transformer 可以降低激活异常值的幅度，从而可能实现更低的量化位宽，支持高效计算。

🏷️

继续阅读

开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
正如我们在 AWS 2026“What’s Next”大会上预告的那样，我们现在正式宣布：OpenAI GPT […]
AdaCodec：一种适用于 AI 生成视频的编解码器
AI 推理的实际成本正为当前 AI 革命的迅猛势头注入一剂清醒剂，人们对优化机器学习成本的关注度也随之提升。除了将 AI 引入企业内部的潜力以及私有 AI...
性和浪漫爱情可以都是崇高的
文章探讨了性与浪漫爱情的二元对立，指出这种观念导致性压抑和内心冲突，尤其是女性在享受性愉悦时常感到恐惧和焦虑。尽管性与浪漫爱情在生理上并无高低之分，但文化...
预测：菲律宾移动服务收入到2030年将超过50亿美元
据智能和生产力平台GlobalData预测，菲律宾移动服务总收入将以4.6%的复合年增长率（CAGR）从2025年的40亿美元（34亿欧元）增长到2030...
研究：世界杯期间球迷最担心的技术难题
英国球迷正摩拳擦掌，准备迎接一个精彩纷呈的夏季足球盛宴。据英国本土四大足球协会（Home Nations Football Associations）的主...
AI对话开发外包靠谱吗？供应商怎么评估
“这个项目，我们自己没人能做，要不要找外包？”当一家企业决定上马 AI 对话产品，却发现内部缺乏相应的技术储备时，这个问题就会被反复提起。外包听起来是条捷...