近8年后，谷歌Transformer继任者「Titans」来了，上下文记忆瓶颈被打破

机器之心 ·

近8年后，谷歌Transformer继任者「Titans」来了，上下文记忆瓶颈被打破

💡 原文中文，约6900字，阅读约需17分钟。

📝

内容提要

谷歌推出的新架构Titans结合了注意力机制和长期记忆模块，能够处理超过200万tokens的上下文，性能超越Transformer和GPT-4。Titans通过三种变体（MAC、MAG、MAL）优化记忆管理，在语言建模和时序预测等任务中表现优异，开辟了新的研究方向。

🎯

关键要点

谷歌推出的新架构Titans结合了注意力机制和长期记忆模块，能够处理超过200万tokens的上下文。
Titans的性能超越了Transformer和GPT-4，成为谷歌Transformer的继任者。
Titans通过三种变体（MAC、MAG、MAL）优化记忆管理，表现优异。
长期神经记忆模块能够在测试时学习记忆，提升模型的泛化能力。
谷歌提出的在线元模型可以有效管理记忆，避免过拟合训练数据。
Titans在语言建模、常识推理、基因组学和时序预测任务中表现优于现有模型。
记忆作为上下文（MAC）变体将历史信息与当前上下文结合，优化记忆管理。
记忆作为门（MAG）变体使用滑动窗口注意力，提升短期记忆的精确性。
记忆作为层（MAL）变体使用深度神经网络，增强模型的记忆能力。
Titans在微调设置中表现优于所有模型，包括GPT-4，显示出强大的记忆能力。
深度记忆模块对模型性能和训练时间有积极影响，提升了鲁棒性。
Titans在时序预测和DNA建模任务中也表现出色，具有竞争力。

❓

延伸问答

Titans架构的主要创新是什么？

Titans架构结合了注意力机制和长期记忆模块，能够处理超过200万tokens的上下文，打破了上下文记忆的瓶颈。

Titans与Transformer和GPT-4相比有什么优势？

Titans的性能超越了Transformer和GPT-4，尤其在处理长上下文和记忆管理方面表现更优。

Titans架构的三种变体分别是什么？

Titans架构的三种变体是记忆作为上下文（MAC）、记忆作为门（MAG）和记忆作为层（MAL）。

长期神经记忆模块的作用是什么？

长期神经记忆模块能够在测试时学习记忆，提升模型的泛化能力，避免过拟合训练数据。

Titans在语言建模任务中的表现如何？

Titans在语言建模任务中表现优于现有模型，尤其在困惑度和准确度方面取得最佳性能。

Titans架构如何管理记忆以避免过拟合？

Titans使用在线元模型来学习如何在测试时记忆或忘记数据，从而避免过拟合训练数据。

🏷️

继续阅读

知识图谱+本地存储：开源Mnemo给AI配的长期记忆中枢
Mnemo是为大语言模型设计的本地优先长期记忆层，旨在解决AI每次会话忘记上下文的问题。它通过构建知识图谱存储历史对话和信息，帮助AI在后续提问中自动召回...
谷歌800亿融资，巴菲特久违接盘，背后有什么鬼故事？
谷歌融资847.5亿美元并停止股票回购，以应对未来挑战并囤积现金。巴菲特的伯克希尔哈撒韦投资100亿美元，显示市场对AI的信心。科技巨头们纷纷转向AI基础...
AI光子学瓶颈：AI集群可能先卡在光纤接口上
随着AI集群规模扩大，数据传输成为瓶颈。铜线在高速下表现不佳，光纤虽然解决了信号衰减问题，但面临激光器短缺、封装难度和测试问题。共封装光学技术提高了效率，...
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
谷歌允许社交媒体明星自定义他们的搜索结果页面
谷歌允许美国的大型创作者和出版商申请专属搜索资料，展示他们的在线内容，如视频和文章。此功能仅限于拥有至少10万YouTube订阅者、10万Instagra...
这次谷歌相册的更新拯救了你的数字相框
谷歌的Ambient API更新使Aura数字相框用户可以自动更新幻灯片库，用户可直接从谷歌相册添加照片或同步整个相册。现有用户需重新连接相册以保持同步，...