量子位 ·

大模型能“原地”改参数了！字节Seed&北大新论文：测试时推理无需加层重训练

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

字节Seed与北大合作提出“原地测试时训练”（In-Place TTT），使大模型在推理时无需重训练即可更新参数，从而提高计算效率和适应能力，尤其在长文本任务中效果显著。

🎯

关键要点

字节Seed与北大合作提出“原地测试时训练”（In-Place TTT），使大模型在推理时无需重训练即可更新参数。
In-Place TTT解决了现有测试时训练（TTT）架构不兼容、计算效率低和优化目标不匹配的问题。
该方法复用了Transformer中的MLP模块，作为快速权重进行原地更新，无需引入新层。
In-Place TTT设计了针对自回归语言模型的优化目标，使其与“预测下一个Token”的任务对齐。
通过块级更新机制，In-Place TTT提高了计算效率，支持更长的上下文任务。
实验表明，In-Place TTT在长文本任务中显著提升了模型表现，优于其他TTT方法。

❓

延伸问答

什么是原地测试时训练（In-Place TTT）？

原地测试时训练（In-Place TTT）是一种方法，使大模型在推理时无需重训练即可更新参数，从而提高计算效率和适应能力。

In-Place TTT如何解决现有TTT架构的问题？

In-Place TTT通过不新增层、复用Transformer中的MLP模块和设计针对自回归语言模型的优化目标，解决了架构不兼容、计算效率低和优化目标不匹配的问题。

In-Place TTT在长文本任务中的表现如何？

实验表明，In-Place TTT在长文本任务中显著提升了模型表现，优于其他TTT方法。

In-Place TTT的块级更新机制有什么优势？

块级更新机制使得In-Place TTT能够实现更高的吞吐量和计算效率，支持更长的上下文任务。

In-Place TTT如何与语言模型的任务对齐？

In-Place TTT通过引入一维卷积和投影矩阵，使目标值包含未来Token的信息，从而与“预测下一个Token”的任务对齐。

字节Seed与北大的合作研究主要集中在哪些方面？

字节Seed与北大的合作研究主要集中在提出In-Place TTT方法，解决大模型在推理时的参数更新问题，提高计算效率和适应能力。

🏷️

继续阅读

独家｜阿里认领屠榜神秘模型「欢乐马」，ATH 郑波团队打造
阿里巴巴确认其创新事业部研发的HappyHorse视频生成模型正在内测，尚未上线。该模型在AI评测平台表现优异，支持文本和图像转视频，计划于4月30日开放...
马斯克说漏嘴了！Claude Opus参数5T，Sonnet 1T
马斯克在推特上意外透露AI模型Claude的参数，Sonnet为1T，Opus为5T。Colossus 2超算正在训练多个模型，引发网友热议Claude系...
什么毁了 JavaScript？
JavaScript作为一种广泛使用的编程语言，因其设计缺陷和复杂的生态系统受到批评。尽管易用性高，但动态类型和不直观的操作导致排序和类型转换错误。此外，...
别让AI转型死在“降本增效”上：增量是解药，但治不了绝症 - 蝈蝈俊
一位副总裁分享了公司AI转型的失败经验，指出单纯追求“降本增效”会导致员工抵触。成功的AI应用应关注增量和团队合作，管理者需为员工提供希望与尊严，以维护团队稳定。
AI推动IT运维向支撑业务创新的关键能力演进
IBM调研显示，77%的高管希望加快AI应用，但仅25%认为现有IT基础设施能支持。AI推动运维模式向“自主智能体AI”演进，增强专业能力，减少重复劳动，...
华为 Pura 90 官宣，还有抢跑苹果的「阔折叠」
华为将于4月20日发布Pura系列新手机，包括影像旗舰Pura 90系列和全新折叠手机Pura X Max，此外还有AI眼镜等可穿戴设备。Pura 90系...