新加坡国立大学与Sea AI Lab提出的OrchRM框架,通过自监督奖励建模,利用多智能体执行中的中间产物构建胜负对,显著提高了多智能体系统的编排效率。该方法无需昂贵的人工标注或完整的子代理执行,Token使用效率提升最高10倍,准确率平均提升约7.2%。OrchRM为多智能体系统的规模化部署提供了新路径。
完成下面两步后,将自动完成登录并继续当前操作。