中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系

机器之心 ·

中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

本文介绍了一种基于数据压缩率的数据选择方法，用于训练大语言模型（LLMs）。作者通过研究LLM性能与数据压缩率、训练损失和数据一致性之间的关系，提出了一种名为ZIP的高效数据选择算法。实验结果表明，ZIP算法在提高模型性能和效率方面具有优势。此外，文章还介绍了基于熵定律的实验验证和实际应用，以指导LLM训练数据的增量更新。

🎯

关键要点

本文介绍了一种基于数据压缩率的数据选择方法，用于训练大语言模型（LLMs）。
提出了一种名为ZIP的高效数据选择算法，旨在提高模型性能和效率。
研究了LLM性能与数据压缩率、训练损失和数据一致性之间的关系。
高质量样本并不总是能提高LLM的学习效率，样本之间的组合效应也很重要。
提出的Entropy law将LLM性能与数据压缩率和训练损失联系起来。
ZIP算法通过多阶段贪心选择低压缩率的数据子集，以最大化有效信息量。
实验结果显示ZIP算法在不同LLM和对齐阶段的有效性和效率上均优于其他算法。
Entropy law的实验验证表明低压缩率数据通常带来更好的模型效果。
Entropy law可以指导LLM训练数据的增量更新，预测模型性能的潜在风险。

❓

延伸问答

Entropy law是什么，它如何影响大语言模型的性能？

Entropy law将大语言模型的性能与数据压缩率和训练损失联系起来，表明低压缩率的数据通常能提高模型效果。

ZIP算法的主要特点是什么？

ZIP算法是一种高效的数据选择方法，通过多阶段贪心选择低压缩率的数据子集，以最大化有效信息量。

高质量样本是否总能提高大语言模型的学习效率？

并非所有高质量样本都能提高学习效率，样本之间的组合效应也很重要，低压缩率的多样化样本可能更有效。

如何通过Entropy law指导大语言模型的训练数据更新？

Entropy law可以预测随着数据压缩率降低，模型性能会提升，从而指导训练数据的增量更新。

ZIP算法在不同大语言模型中的有效性如何？

实验结果表明，ZIP算法在不同大语言模型和对齐阶段的有效性和效率均优于其他算法。

训练损失与数据一致性之间有什么关系？

较高的训练损失通常意味着数据一致性较低，影响模型学习到的有效知识量。

🏷️

继续阅读

什么是 AI 对话开发？AI 对话开发有什么用途？(2026 完整指南)
AI对话开发结合语音识别、大语言模型和语音合成，能够与用户自然交流，广泛应用于智能客服、AI陪伴和在线教育等领域。与传统聊天机器人不同，AI对话能够理解上...
他们是由权重构成的：一篇让你重新思考AI与人类的文章
本文探讨了大语言模型的核心原理，强调知识和推理能力分布在权重网络中，而非独立模块。通过类比人类大脑，讨论了意识的涌现理论及人类对AI的情感投射，指出人类对...
原华为盘古大模型负责人王云鹤离职创业；苹果硬件负责人启动重大重组；OpenAI联合创始人加入Anthropic
近期多家科技公司高管频繁变动。华为盘古大模型负责人王云鹤离职创业，成立新公司“基元律动”；阿里副总裁张凯夫也离职创业，专注市场行为预测；苹果硬件部门进行重...
人工智能没有意识：华裔科幻作家拆穿AI人格化背后认知陷阱
特德·姜批评AI人格化，认为大语言模型如Claude仅是文字续写机器，并无意识。他指出，将AI视为有感情的存在会模糊责任归属，导致人类逃避道德责任。真正的...
Valkey 为什么这么快？盘点 Valkey 中提升性能的黑科技
Valkey是Amazon ElastiCache的核心引擎，作为高性能开源内存数据库，单节点吞吐量可达119万RPS，集群可扩展至2000节点。Valk...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...