Apple Machine Learning Research ·

RATTENTION：局部-全局注意力模型中的最小滑动窗口大小研究

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

本研究探讨了局部-全局注意力模型中的窗口大小选择，提出了RATTENTION变体，利用线性注意力机制捕捉窗口外信息。实验结果表明，RATTENTION在512窗口大小下的性能与全注意力模型相当，同时保持了训练效率，适用于短上下文场景。

🎯

关键要点

局部-全局注意力模型是标准Transformer的替代方案，旨在提高训练和推理效率。
窗口大小的选择存在帕累托权衡：较大窗口保持与全注意力相似的性能，但在短上下文场景中效率提升有限；较小窗口可能导致性能下降。
当前模型如Gemma2和Mistral采用保守的窗口大小以保持性能。
RATTENTION是一种局部注意力的变体，结合了线性注意力机制，能够捕捉窗口外的信息。
在3B和12B规模的预训练实验中，RATTENTION在性能和效率之间实现了优越的帕累托权衡。
RATTENTION在512窗口大小下的性能与全注意力模型相当，适用于多种设置。
RATTENTION的线性注意力组件的递归特性增强了长上下文性能，且不影响训练效率。

❓

延伸问答

RATTENTION模型的主要优势是什么？

RATTENTION模型在512窗口大小下的性能与全注意力模型相当，同时保持了训练效率，适用于短上下文场景。

局部-全局注意力模型的窗口大小选择有什么影响？

窗口大小的选择存在帕累托权衡：较大窗口保持与全注意力相似的性能，但在短上下文场景中效率提升有限；较小窗口可能导致性能下降。

RATTENTION是如何捕捉窗口外信息的？

RATTENTION结合了线性注意力机制，能够捕捉窗口外的信息，从而克服局部注意力的局限性。

RATTENTION在预训练实验中的表现如何？

在3B和12B规模的预训练实验中，RATTENTION在性能和效率之间实现了优越的帕累托权衡。

当前有哪些模型采用保守的窗口大小？

当前模型如Gemma2和Mistral采用保守的窗口大小，以保持性能。

RATTENTION的线性注意力组件有什么特点？

RATTENTION的线性注意力组件具有递归特性，增强了长上下文性能，且不影响训练效率。

🏷️

继续阅读

Mythos架构被22岁小伙“逆推”开源了！MoE和注意力借鉴DeepSeek
OpenMythos是一种新型的循环深度Transformer架构，采用MoE路由机制，通过跨专家权重共享实现高效推理。在参数量减少近一半的情况下，其性能...
从明年开始欧盟强制要求所有智能手机和平板都必须能轻易拆卸和更换电池
#手机数码从明年开始面向欧盟市场销售的智能手机和平板电脑都必须支持轻松更换电池，否则可能会无法在欧盟市场销售。这项规定从 2023 年已经成为法律，到 ...
白嫖10年后真要说再见！微软将在5月清退蓝点网Office 365教育订阅所有账号
#软件资讯白嫖 10 年后真要说再见！蓝点网 Office 365 教育版订阅将在 5 月份停止服务，届时微软会清退所有子账号。蓝点网在 2015~20...
大疆 Pocket 4 刷屏，而 GoPro 正在死去
大疆发布了Pocket 4，具备3800万像素和107GB存储，进一步巩固其在手持云台相机市场的地位。与此同时，GoPro推出MISSION 1系列，主打...
【Rust日报】2026-04-20 cargo-aprz 1.0.0 发布 - Rust 依赖质量评估工具
cargo-aprz 1.0.0 是一个 Rust 依赖质量评估工具，通过多维度指标帮助开发者了解 crate 的质量。qusql 是编译时 SQL 检查...
早报｜苹果官宣新CEO，设立首席硬件官职位/华为发布大阔折叠，余承东：扛不住了也可能涨价/多平台回应12306拒绝出票
苹果宣布约翰·特努斯将于九月接任CEO，库克转任董事长。华为发布Pura系列新手机，可能因成本上涨面临涨价。字节跳动去年净利润下降70%，但营收仍增长。特...