量子位 ·

HuggingFace CEO力荐，Bengio团队也押注：这个1500美元训出的HRM模型，凭什么火了？

💡 原文中文，约10900字，阅读约需26分钟。

📝

内容提要

HRM-Text是一个约1B参数的小型模型，训练成本仅1500美元，采用分层递归推理架构，强调在输出前进行深层内部计算。与传统大模型不同，HRM-Text关注思考和验证信息，而非仅增加参数和数据。其在多个推理基准测试中表现优异，表明新的计算结构可能是提升模型能力的关键，为未来AI推理模型的发展提供了新方向。

🎯

关键要点

HRM-Text是一个约1B参数的小型模型，训练成本仅1500美元，采用分层递归推理架构。
HRM-Text关注思考和验证信息，而非仅增加参数和数据，试图将模型转变为更强的推理核心。
在多个推理基准测试中，HRM-Text表现优异，表明新的计算结构可能是提升模型能力的关键。
HRM-Text通过潜空间中的多轮分层递归计算，完成更深层的内部推理，改变了模型的计算方式。
HRM-Text的训练信号更集中于生成答案，而不是平均分散在整段文本中，提升了任务完成的效率。
HRM-Text引入MagicNorm和warmup deep credit assignment，解决了递归训练的不稳定性问题。
HRM-Text的成功表明，模型能力增长不仅依赖于参数、数据和算力，还有计算结构的优化。
Sapient的HRM架构为下一代推理模型提供了新的研究方向，强调推理模型应在潜空间中进行更深的内部计算。

🔎

延伸解读

HRM-Text的创新架构

HRM-Text采用分层递归推理架构，强调在输出前进行深层内部计算。这种设计使得模型在推理过程中不再依赖于简单的参数堆叠，而是通过更深的计算过程提升推理能力。这一创新可能为未来的AI模型设计提供新的思路，尤其是在处理复杂任务时。

模型能力的多维度提升

HRM-Text的成功不仅依赖于参数数量的增加，还在于其训练信号的重新分配。通过集中训练于生成答案而非整个文本序列，模型在特定任务上的表现得到了显著提升。这一策略为企业在特定应用场景中实现更高效的AI能力提供了新的可能性。

行业影响与未来方向

HRM-Text的出现挑战了传统的AI模型开发思路，提示行业在追求更大模型的同时，也应关注模型的思考能力和推理结构。随着AI技术的不断发展，未来的推理模型可能会更加注重内部计算的深度，而非单纯的规模扩张。

❓

延伸问答

HRM-Text模型的主要特点是什么？

HRM-Text是一个约1B参数的小型模型，训练成本仅1500美元，采用分层递归推理架构，强调在输出前进行深层内部计算。

HRM-Text与传统大模型有什么不同？

HRM-Text关注思考和验证信息，而非仅增加参数和数据，试图将模型转变为更强的推理核心。

HRM-Text在推理基准测试中的表现如何？

HRM-Text在多个推理基准测试中表现优异，如在MATH上得分56.2，在GSM8K上得分84.5。

HRM-Text是如何提高模型推理能力的？

HRM-Text通过潜空间中的多轮分层递归计算，完成更深层的内部推理，改变了模型的计算方式。

HRM-Text的训练信号与其他模型有什么不同？

HRM-Text的训练信号更集中于生成答案，而不是平均分散在整段文本中，提升了任务完成的效率。

HRM-Text的成功对未来AI推理模型有什么启示？

HRM-Text的成功表明，模型能力增长不仅依赖于参数、数据和算力，还有计算结构的优化，为未来AI推理模型的发展提供了新方向。

🏷️