Apple Machine Learning Research ·

减少灌输以容纳更多：训练数据修剪提升事实记忆能力

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本文探讨了大语言模型（LLMs）在记忆事实知识方面的挑战，并提出通过训练数据修剪来提高事实准确性。研究表明，当训练数据中的信息量超过模型容量时，事实准确性会下降。作者提出了一种基于训练损失的数据选择方案，能够有效提升模型的事实记忆能力，甚至使小模型的表现接近大模型。

🎯

关键要点

大语言模型（LLMs）在记忆事实知识方面存在挑战，常导致幻觉和在知识密集型任务上的表现不佳。
当训练数据中的信息量超过模型容量时，事实准确性会下降，且当事实频率分布不均时，这种情况会加剧。
提出了一种基于训练损失的数据选择方案，旨在限制训练数据中的事实数量并平滑其频率分布。
在包含高熵事实的半合成数据集上，该选择方法有效提升了事实准确性，达到了模型的容量极限。
在从头开始对标注的维基百科语料库进行预训练时，该选择方法使得GPT2-Small模型能够记忆比标准训练多1.3倍的实体事实，表现接近于10倍参数量的模型。

❓

延伸问答

大语言模型在记忆事实知识方面面临哪些挑战？

大语言模型在记忆事实知识时常常导致幻觉，并在知识密集型任务上表现不佳。

训练数据的容量如何影响事实准确性？

当训练数据中的信息量超过模型容量时，事实准确性会下降，尤其是当事实频率分布不均时。

文章中提出了什么方法来提高模型的事实记忆能力？

文章提出了一种基于训练损失的数据选择方案，旨在限制训练数据中的事实数量并平滑其频率分布。

该选择方法在实验中表现如何？

在包含高熵事实的半合成数据集上，该选择方法有效提升了事实准确性，达到了模型的容量极限。

GPT2-Small模型在使用该选择方法时的表现如何？

使用该选择方法时，GPT2-Small模型能够记忆比标准训练多1.3倍的实体事实，表现接近于10倍参数量的模型。

训练数据修剪对大语言模型的影响是什么？

训练数据修剪可以提高模型的事实记忆能力，减少幻觉现象，并提升在知识密集型任务上的表现。

🏷️

继续阅读

什么是 AI 对话开发？AI 对话开发有什么用途？(2026 完整指南)
AI对话开发结合语音识别、大语言模型和语音合成，能够与用户自然交流，广泛应用于智能客服、AI陪伴和在线教育等领域。与传统聊天机器人不同，AI对话能够理解上...
知识图谱+本地存储：开源Mnemo给AI配的长期记忆中枢
Mnemo是为大语言模型设计的本地优先长期记忆层，旨在解决AI每次会话忘记上下文的问题。它通过构建知识图谱存储历史对话和信息，帮助AI在后续提问中自动召回...
代理时代对数据科学的意义
人工智能与数据科学的交汇点正在变化，AI系统能够自主执行多步骤任务，改变了数据科学家的工作。数据科学家需要结合统计思维、编程能力和领域专业知识，同时设计和...
梦境：为更有帮助的ChatGPT提供更好的记忆
OpenAI推出了更强大的记忆系统，通过“梦境”功能自动更新用户信息，提高ChatGPT在互动中的时效性和准确性。该更新已向美国的Plus和Pro用户推出...
在Vibe编码时代使OWASP前十名更具影响力
2025年OWASP前十名更新将重点从“过时组件”转向软件供应链安全，新增内存安全和“vibe编码”意识项，反映了开发者和网络应用安全领域对关键安全风险的共识。
B站宣布启动AI创造公开赛打造中国版Build in Public
哔哩哔哩于6月5日启动“AI创造公开赛”，旨在鼓励普通用户参与AI产品开发。比赛无年龄、学历限制，用户可通过投币和弹幕参与评选。赛事吸引了60%非专业开发...