量子位 ·

全新合成框架SOTA：强化学习当引擎，任务合成当燃料，蚂蚁港大联合出品

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

蚂蚁与港大联合推出PromptCoT 2.0框架，专注于任务合成与强化学习。实验表明，该框架在数学代码推理任务上达成新SOTA，显著提升模型性能。PromptCoT 2.0通过期望最大化优化生成更具挑战性的问题，并开源4.77M合成数据，推动大模型推理能力的提升。未来将探索环境合成与多模态任务。

🎯

🔎

PromptCoT 2.0框架强调任务合成在大模型推理中的核心地位。随着模型智能化，合成数据的质量将逐步提升，可能取代人工数据成为训练的主力。这一转变将影响未来模型的训练方式和应用场景，值得关注。

PromptCoT 2.0通过强化学习与合成数据的结合，显著提升了模型的推理能力。实验结果显示，合成数据在数学与代码推理任务中表现优于依赖人工问题的数据集，这为未来的模型训练提供了新的思路和方向。

PromptCoT 2.0的发布标志着任务合成研究的起点，未来将探索Agentic环境合成和多模态任务合成等方向。这些新领域的探索将推动大模型在更复杂和多样化的任务中表现出色，值得持续关注。

❓

PromptCoT 2.0框架的主要目标是专注于任务合成与强化学习，以提升大模型的推理能力。

PromptCoT 2.0通过期望最大化优化生成更具挑战性的问题，并结合强化学习，显著提升模型在数学代码推理任务上的性能。

PromptCoT 2.0开源了4.77M个合成问题及对应的教师监督数据。

任务合成提供高质量的任务数据，是强化学习发挥作用的基础，能够解决现实世界中的复杂问题。

PromptCoT 2.0在效果、方法和数据上实现了全面升级，特别是引入了基于期望最大化的优化过程。

未来PromptCoT将探索Agentic环境合成、多模态任务合成和自奖励机制等方向。

🏷️