Micropaper ·

AI 范式雷达：《OrchRM——多智能体编排的自监督奖励建模新范式》

💡 原文中文，约6800字，阅读约需16分钟。

📝

内容提要

新加坡国立大学与Sea AI Lab提出的OrchRM框架，通过自监督奖励建模，利用多智能体执行中的中间产物构建胜负对，显著提高了多智能体系统的编排效率。该方法无需昂贵的人工标注或完整的子代理执行，Token使用效率提升最高10倍，准确率平均提升约7.2%。OrchRM为多智能体系统的规模化部署提供了新路径。

🎯

关键要点

OrchRM框架通过自监督奖励建模，利用多智能体执行中的中间产物构建胜负对，显著提高了编排效率。
该方法无需昂贵的人工标注或完整的子代理执行，Token使用效率提升最高10倍，准确率平均提升约7.2%。
OrchRM的核心在于将奖励建模从传统的完整Rollout和人工标注转向中间产物和自监督比较。
在数学推理任务中，OrchRM的测试时扩展策略使准确率从52.3%提升至60.1%，提升幅度达7.8个百分点。
OrchRM为多智能体系统的规模化部署提供了新的技术路径，降低了训练成本并提高了性能。

🔎

延伸解读

OrchRM的创新之处

OrchRM框架通过自监督奖励建模，利用多智能体执行中的中间产物构建胜负对，显著提升了编排效率。这一方法打破了传统依赖人工标注和完整子代理执行的局限，降低了训练成本，为多智能体系统的规模化部署提供了新的可能性。

Token使用效率的提升

OrchRM在Token使用效率上实现了最高10倍的提升，意味着在相同的计算资源下，可以处理更多的任务。这对于需要高频次决策的多智能体系统尤为重要，能够显著降低运营成本并提高系统的响应速度。

准确率的显著提升

在数学推理等任务中，OrchRM的准确率提升达7.2%，最高单领域提升达到7.8个百分点。这表明，OrchRM不仅在效率上有优势，同时在任务执行的质量上也有显著改善，适合对准确性要求高的应用场景。

实施中的注意事项

在集成OrchRM时，选择合适的中间产物质量评估函数至关重要。评估函数的准确性直接影响胜负对的构建质量，从而影响奖励模型的学习效果。建议从简单的规则评估开始，逐步过渡到更复杂的自动评分方法。

❓

延伸问答

OrchRM框架的主要创新点是什么？

OrchRM框架通过自监督奖励建模，利用多智能体执行中的中间产物构建胜负对，显著提高了编排效率，降低了训练成本。

OrchRM如何提高多智能体系统的编排效率？

OrchRM通过直接在编排层面操作，利用中间产物构建胜负对，避免了传统方法中昂贵的人工标注和完整子代理执行。

使用OrchRM的训练过程有哪些步骤？

训练过程包括收集中间产物、构建胜负对、输入Bradley-Terry模型进行训练，以及利用训练好的奖励模型指导编排器。

OrchRM在数学推理任务中的表现如何？

在数学推理任务中，OrchRM的准确率从52.3%提升至60.1%，提升幅度达7.8个百分点。

OrchRM相比传统方法的Token消耗如何？

OrchRM的Token消耗降至6.9到9.2之间，效率提升最高达10倍，而传统方法的Token消耗在68.7到90.5之间。

OrchRM的自监督奖励建模有什么优势？

自监督奖励建模消除了对昂贵人工标注的依赖，利用中间产物直接提取训练信号，提高了训练效率和准确性。

🏷️