实时互动网 ·

PrimeIntellect 发布 INTELLECT-2：通过分布式异步强化学习训练的 32B 推理模型

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

INTELLECT-2是PrimeIntellect推出的32B参数推理模型，采用去中心化异步强化学习框架，克服了集中式训练的局限性。该模型在多个基准测试中超越QwQ-32B，展现出更强的推理能力和灵活性，支持可重复性和扩展性。

🎯

🔎

INTELLECT-2采用去中心化异步强化学习框架，克服了集中式训练的高成本和可扩展性瓶颈。这种方法不仅提高了训练的灵活性，还允许更多的研究者参与，推动了开源研究的发展。去中心化的架构使得模型训练在不可靠的网络条件下也能顺利进行，增强了系统的容错能力。

在多个基准测试中，INTELLECT-2超越了QwQ-32B，特别是在数学和编码任务中表现突出。这表明去中心化的训练后流程不仅能与传统方法相媲美，甚至在某些方面表现更优。通过精心设计的奖励模型和异步更新机制，INTELLECT-2实现了更高的推理准确性和泛化能力。

INTELLECT-2的架构由PRIME-RL、SHARDCAST和TOPLOC三个组件构成，分别解决了训练过程中的不同挑战。这种模块化设计不仅提高了通信效率，还确保了推理输出的完整性。随着去中心化AI开发的兴起，这种架构为未来的模型训练提供了可扩展和可靠的解决方案。

❓

INTELLECT-2是一个32B参数的推理模型，采用去中心化异步强化学习框架，展现出更强的推理能力和灵活性。

通过去中心化方法，INTELLECT-2缓解了集中式训练的高成本、可用性有限和可扩展性瓶颈。

INTELLECT-2在多个基准测试中超越了QwQ-32B，特别是在数学和编码任务中表现优异。

训练数据使用了约285,000个可验证任务，数据来源包括NuminaMath-1.5、Deepscaler和SYNTHETIC-1等数据集。

INTELLECT-2的架构由PRIME-RL、SHARDCAST和TOPLOC三个主要组件构成。

去中心化训练提供了一种实用且可扩展的替代方案，促进了开放式AI开发的研究兴趣。

🏷️