本研究提出QLASS方法,解决语言代理在缺乏中间交互注释时的次优政策问题。通过推理树和过程奖励建模,QLASS在复杂任务中显著提升推理性能,并在标注数据减少时仍保持良好表现。
完成下面两步后,将自动完成登录并继续当前操作。