实时互动网 ·

语言模型到底能记忆多少内容？Meta 的新框架定义了比特级的模型容量

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

研究者质疑现代语言模型的记忆行为，提出新方法评估模型对数据点的理解，区分非预期记忆与泛化。实验表明，GPT系列模型的记忆容量约为3.6位/参数，且随着训练集增大，记忆力下降。该研究为理解模型行为提供了框架，推动未来模型评估与隐私研究。

🎯

关键要点

研究者质疑现代语言模型的记忆行为，提出新方法评估模型对数据点的理解。
现有方法无法有效区分非预期记忆与泛化，存在局限性。
新方法将记忆分为非预期记忆和泛化，计算总记忆以准确估计模型容量。
实验表明，GPT系列模型的记忆容量约为3.6位/参数，随着训练集增大，记忆力下降。
研究团队使用GPT-2架构训练了数百个模型，探索模型容量与数据大小的关系。
随着训练数据集大小接近模型容量，测试损失会经历初期减少后再次改善的双重下降现象。
准确估计模型记忆需要重复数据删除并参考Oracle模型来确定基线压缩率。
成员推断的成功率随着数据集的增长变得不可靠，尤其是对于大参数模型。
该研究为理解模型行为提供了框架，推动未来模型评估与隐私研究。

❓

延伸问答

现代语言模型的记忆行为存在哪些质疑？

研究者质疑现代语言模型是否能够以有意义的方式记忆训练数据，尤其是常用技术无法有效区分记忆与泛化。

Meta提出的新方法如何评估语言模型的记忆容量？

新方法将记忆分为非预期记忆和泛化，通过去除泛化来准确估计模型容量，结果显示GPT系列模型的容量约为3.6位/参数。

随着训练集增大，语言模型的记忆力会发生什么变化？

随着训练集规模的增加，模型的记忆力会下降，尤其是在数据集接近模型容量时。

研究团队使用了什么架构来训练模型？

研究团队使用了GPT-2架构，训练了数百个模型，参数数量从10万到2000万不等。

什么是双重下降现象？

双重下降现象是指随着训练数据集大小接近模型容量，测试损失最初减少后，再次改善的现象。

这项研究对未来模型评估有什么影响？

该研究为理解模型行为提供了框架，推动未来在模型评估、隐私和可解释性方面的发展。

🏷️

继续阅读

Meta正在为其AI工具投放快速致富广告
Meta收购的AI公司Manus正在推广其工具，声称可以帮助用户轻松赚取收入。该公司通过支付内容创作者在社交媒体上宣传其产品，鼓励用户利用AI为本地企业建...
Meta公司放弃开源Llama，转向专有的Muse Spark
Meta公司宣布其新AI模型Muse Spark将取代已被放弃的Llama。Muse Spark采用全新架构，无法与Llama迁移，Llama用户需寻找替...
LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调
本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。...
Meta上个季度失去了2000万用户
Meta最近财报显示，Facebook、Instagram和WhatsApp等平台的日活跃用户减少了2000万。尽管用户流失，扎克伯格计划在人工智能上额外...
OpenAI的新安全模型仅面向‘关键网络防御者’
OpenAI即将推出新的网络安全模型GPT-5.5-Cyber，首批仅向“可信的网络防御者”发布。CEO萨姆·阿尔特曼表示，此次有限发布旨在增强机构的网络...
为流媒体内容设计稳定的用户界面
本文探讨了流媒体用户界面的设计挑战，包括滚动行为、布局稳定性和渲染频率。作者提出通过合理的用户体验设计解决这些问题，如在用户滚动时停止自动滚动、保持布局稳...