机器之心 ·

Multi-Token突破注意力机制瓶颈，Meta发明了一种很新的Transformer

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

研究者提出了一种新型注意力机制——Multi-Token 注意力（MTA），旨在克服标准注意力在处理长上下文时的局限性。MTA通过卷积运算结合多个向量的相似性，更有效地关注相关信息。实验结果表明，MTA在语言建模和长距离依赖任务中优于传统方法，且参数增加极小。

🎯

❓

Multi-Token注意力（MTA）是一种新型注意力机制，旨在克服标准注意力在处理长上下文时的局限性，通过卷积运算结合多个向量的相似性来更有效地关注相关信息。

MTA通过对注意力权重进行卷积运算，允许模型关注相邻键、之前的查询和其他头的信息，从而在长距离依赖任务中表现优异。

MTA在处理复杂上下文时能够更有效地关注多个相关信息，实验结果显示其在语言建模和长距离依赖任务中均优于标准多头注意力，且参数增加极小。

MTA的架构包括键-查询卷积、头混合卷积和带深度缩放的组归一化，这些部分共同作用以提高注意力机制的性能。

实验表明，MTA在标准和长距离依赖任务中均表现优异，尤其在复杂度和基准任务上均有所改进，且参数数量仅增加了0.001%。

MTA通过在键、查询和注意力头的维度上进行卷积运算，允许注意力权重在多个向量之间进行组合，从而提高信息的提取效率。

🏷️

智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
Google LiteRT-LM Speeds Up Local Inference Up to 2.2x With Gemma 4 Multi-Token Prediction
LiteRT-LM brings native support for Gemma 4 Multi-Token Prediction (MTP) draf...
AI光子学瓶颈：AI集群可能先卡在光纤接口上
随着AI集群规模扩大，数据传输成为瓶颈。铜线在高速下表现不佳，光纤虽然解决了信号衰减问题，但面临激光器短缺、封装难度和测试问题。共封装光学技术提高了效率，...
This is your laptop… on AI
We're now deep into developer conference season, and one of the themes so...
What happens when your phone is confiscated at the airport
Even if you've done nothing wrong, it's never a good idea to hand you...
Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency
Gemma 4 Quantization-Aware Training (QAT)