谷歌新架构突破Transformer超长上下文瓶颈!Hinton灵魂拷问:后悔Open吗?

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

谷歌在NeurIPS 2025上推出了新架构Titans和MIRAS,突破了Transformer在超长上下文处理中的限制。Titans结合了RNN的速度与Transformer的性能,能够动态更新记忆,扩展上下文至200万token。MIRAS则提供统一的序列建模框架,优化信息整合与记忆更新。这些新架构在处理长序列时优于现有模型,标志着AI领域的重要进展。

🎯

关键要点

  • 谷歌在NeurIPS 2025上推出新架构Titans和MIRAS,突破Transformer在超长上下文处理中的限制。
  • Titans结合了RNN的速度与Transformer的性能,能够动态更新记忆,扩展上下文至200万token。
  • MIRAS提供统一的序列建模框架,优化信息整合与记忆更新。
  • Titans引入新的神经长期记忆模块,能够在推理阶段动态更新权重。
  • MAC架构将长期记忆作为额外上下文信息,提升模型的表达能力。
  • Titans通过“意外指标”选择性更新长期记忆,保持快速和高效。
  • MIRAS将序列模型结构为四个关键设计选择,优化信息的学习与保留。
  • 基于Titans和MIRAS的模型性能优于现有的线性循环模型和Transformer基线模型。
  • 谷歌的研究人员认为公开Transformer的研究对世界产生了积极影响。

延伸问答

谷歌在NeurIPS 2025上推出了哪些新架构?

谷歌在NeurIPS 2025上推出了Titans和MIRAS两项新架构。

Titans架构如何突破Transformer的限制?

Titans结合了RNN的速度与Transformer的性能,能够动态更新记忆,扩展上下文至200万token。

MIRAS的主要目标是什么?

MIRAS的主要目标是让模型在推理阶段也能进行学习,优化信息整合与记忆更新。

Titans架构中的“意外指标”是什么?

“意外指标”是指模型检测到当前记忆内容与新输入内容之间存在较大差异时的度量,用于选择性更新长期记忆。

基于Titans和MIRAS的模型性能如何?

基于Titans和MIRAS的模型性能优于现有的线性循环模型和Transformer基线模型,能够处理极长上下文。

谷歌研究人员对公开Transformer的看法是什么?

谷歌研究人员认为公开Transformer的研究对世界产生了巨大的积极影响。

➡️

继续阅读