Prime Intellect发布INTELLECT-2:一款通过去中心化强化学习训练的32亿参数模型

Prime Intellect发布INTELLECT-2:一款通过去中心化强化学习训练的32亿参数模型

💡 原文英文,约400词,阅读约需2分钟。
📝

内容提要

Prime Intellect发布了基于去中心化网络的32亿参数语言模型INTELLECT-2,采用完全异步强化学习。该模型使用PRIME-RL框架,分离生成、更新和广播任务,通过SHARDCAST分发模型权重,并通过TOPLOC验证推理结果。INTELLECT-2在285,000个数学和编程任务上训练,表现优于前代模型。未来计划包括提升推理与训练的计算比率及整合更多工具。

🎯

关键要点

  • Prime Intellect发布了基于去中心化网络的32亿参数语言模型INTELLECT-2,采用完全异步强化学习。
  • INTELLECT-2在无权限基础设施上开发,生成、更新和广播任务分离。
  • 系统基于PRIME-RL框架,使用SHARDCAST分发模型权重,通过TOPLOC验证推理结果。
  • 模型在285,000个数学和编程任务上训练,表现优于前代模型QwQ-32B。
  • 异步训练过程重叠推理、通信和模型更新,避免了集中式强化学习系统的瓶颈。
  • 未来计划包括提升推理与训练的计算比率,整合更多工具,众包强化学习任务。
  • 模型、代码、训练框架和文档在Prime Intellect网站上公开,附加工具和接口也可访问。

延伸问答

INTELLECT-2模型的主要特点是什么?

INTELLECT-2是一个32亿参数的语言模型,采用完全异步强化学习,基于去中心化网络开发,任务生成、更新和广播分离。

INTELLECT-2是如何进行训练的?

INTELLECT-2在285,000个数学和编程任务上训练,使用PRIME-RL框架和SHARDCAST分发模型权重,采用异步训练过程。

与前代模型相比,INTELLECT-2的表现如何?

INTELLECT-2在目标数学和编程任务上表现优于前代模型QwQ-32B,但在更广泛的基准测试中改进较小。

未来对INTELLECT-2有哪些计划?

未来计划包括提升推理与训练的计算比率,整合更多工具,众包强化学习任务,以及实验去中心化模型合并方法。

INTELLECT-2如何验证推理结果的准确性?

推理结果通过TOPLOC机制进行验证,该机制使用局部敏感哈希检测篡改或数值差异。

INTELLECT-2的代码和文档在哪里可以找到?

INTELLECT-2的模型、代码、训练框架和文档都在Prime Intellect网站上公开,附加工具和接口也可访问。

➡️

继续阅读