量子位 ·

又是王冠：27M小模型超越o3-mini！拒绝马斯克的00后果然不同

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

王冠开发的27M小模型HRM采用仿脑设计，克服了Transformer的局限性。通过分层循环模块和近似梯度技术，HRM实现了高效推理，准确率超过大型模型。尽管参数较少，HRM在特定任务中表现优异，展现出新架构的潜力。

🎯

🔎

HRM模型通过仿脑设计克服了传统Transformer的局限，展现出在特定任务中的优越性能。然而，其参数较少和训练样本有限，使得HRM在泛化能力上存在不足，可能无法适应更广泛的应用场景。读者在关注其技术创新的同时，也应考虑其适用范围的限制。

HRM的成功源于其五项核心技术的结合，尤其是分层循环模块和近似梯度技术。这些设计不仅提高了推理效率，还有效避免了过早收敛的问题。理解这些技术的运作机制，有助于读者把握未来AI模型发展的方向和潜力。

王冠拒绝了马斯克的邀请，选择独立开发新模型，显示出年轻一代在AI领域的创新精神。随着Sapient Intelligence的成立，HRM可能会在市场上引发新的竞争格局。关注这一动态，可能会对未来AI技术的演变产生重要影响。

❓

HRM模型的核心技术包括分层循环模块、分层收敛机制、近似梯度技术、深度监督机制和自适应计算时间。

HRM在ARC-AGI测试中以2700万参数和1000个训练样本达到40.3%的准确率，超越了更大参数的模型。

王冠拒绝马斯克的邀请是因为他希望颠覆Transformer，专注于自己的研究方向。

HRM通过仿脑设计和分层循环模块，克服了Transformer的计算局限，实现了高效推理。

HRM模型有2700万参数，使用了1000个训练样本。

尽管参数较少，HRM在特定任务中表现优异，展现出新架构的潜力。

🏷️