量子位 ·

谷歌新架构一战成名，打破Transformer记忆瓶颈，姚班校友钟沛林新作

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

谷歌的新Titan架构突破了Transformer的记忆瓶颈，提出了长期记忆模块，能够处理超过200万的上下文窗口。该模块借鉴人脑原理，通过惊喜程度优化记忆，提升了泛化能力。实验表明，Titan在语言建模和时间序列预测等任务上超越了现有模型，展现出独立学习能力。

🎯

关键要点

谷歌的新Titan架构突破了Transformer的记忆瓶颈。
Titan架构引入了长期记忆模块，能够处理超过200万的上下文窗口。
该模块借鉴人脑原理，通过惊喜程度优化记忆，提升了泛化能力。
Titan在语言建模和时间序列预测等任务上超越了现有模型。
新的长期记忆模块设计灵感来自神经心理学，能够有效记住意外事件。
引入动量机制和遗忘机制，防止记忆溢出。
Titan提出三种变体：MAC、MAG和MAL，分别将记忆作为上下文、门和层。
Titan在多个任务上表现优异，证明了其独立学习能力。
团队成员来自Google Research NYC，尚未合并到Google DeepMind。

❓

延伸问答

Titan架构如何突破Transformer的记忆瓶颈？

Titan架构引入了长期记忆模块，能够处理超过200万的上下文窗口，借鉴人脑原理优化记忆，提升泛化能力。

Titan架构的长期记忆模块是如何工作的？

该模块通过惊喜程度优化记忆，使用动量机制和遗忘机制来有效记住重要信息并防止记忆溢出。

Titan架构在语言建模任务上的表现如何？

Titan在语言建模、常识推理和时间序列预测等任务上超越了现有的SOTA模型，展现出独立学习能力。

Titan架构提出了哪些变体？

Titan提出了三种变体：MAC（记忆作为上下文）、MAG（记忆作为门）和MAL（记忆作为层）。

Titan架构的设计灵感来源于哪些领域？

Titan的设计灵感来源于神经心理学，特别是人脑如何处理意外事件的记忆。

Titan架构的团队成员背景如何？

Titan的团队成员来自Google Research NYC，尚未合并到Google DeepMind，主要成员包括Ali Behrouz和钟沛林等。

🏷️

继续阅读

知识图谱+本地存储：开源Mnemo给AI配的长期记忆中枢
Mnemo是为大语言模型设计的本地优先长期记忆层，旨在解决AI每次会话忘记上下文的问题。它通过构建知识图谱存储历史对话和信息，帮助AI在后续提问中自动召回...
有网友在谷歌搜索Codex被恶意广告欺骗带毒版直接窃取2万美元的加密货币
近期有网友在谷歌搜索Codex时被骗，损失高达2万美元的加密货币。攻击者利用谷歌商家域名创建钓鱼网站，诱导用户执行恶意安装命令，导致用户剪贴板内容被替换。...
谷歌800亿融资，巴菲特久违接盘，背后有什么鬼故事？
谷歌融资847.5亿美元并停止股票回购，以应对未来挑战并囤积现金。巴菲特的伯克希尔哈撒韦投资100亿美元，显示市场对AI的信心。科技巨头们纷纷转向AI基础...
别把 Go 写成 Java：毁掉项目从过度架构开始
本文探讨了Go语言开发中的过度架构问题，强调应避免复杂的目录结构和不必要的抽象。建议采用扁平化的项目结构，按业务能力划分包，减少内部依赖，保持代码简单易懂...
AI光子学瓶颈：AI集群可能先卡在光纤接口上
随着AI集群规模扩大，数据传输成为瓶颈。铜线在高速下表现不佳，光纤虽然解决了信号衰减问题，但面临激光器短缺、封装难度和测试问题。共封装光学技术提高了效率，...
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...