又是王冠:27M小模型超越o3-mini!拒绝马斯克的00后果然不同

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

王冠开发的27M小模型HRM采用仿脑设计,克服了Transformer的局限性。通过分层循环模块和近似梯度技术,HRM实现了高效推理,准确率超过大型模型。尽管参数较少,HRM在特定任务中表现优异,展现出新架构的潜力。

🎯

关键要点

  • 王冠开发的27M小模型HRM采用仿脑设计,克服了Transformer的局限性。
  • HRM通过分层循环模块和近似梯度技术,实现了高效推理,准确率超过大型模型。
  • HRM在特定任务中表现优异,展现出新架构的潜力。
  • HRM的核心技术包括分层循环模块、分层收敛机制、近似梯度技术、深度监督机制和自适应计算时间。
  • HRM在ARC-AGI测试中以2700万参数和1000个训练样本达到40.3%的准确率,超越了更大参数的模型。
  • 尽管HRM参数较小,训练范围有限,但在特定领域表现出色,可能在某些方面更智能。
  • 王冠是00后清华校友,拒绝了马斯克的邀请,致力于颠覆Transformer。
  • 2024年,王冠与联合创始人创办Sapient Intelligence,目标是打造具有复杂推理和规划能力的新模型架构。
➡️

继续阅读