小红花·文摘

本研究提出QLASS方法，解决语言代理在缺乏中间交互注释时的次优政策问题。通过推理树和过程奖励建模，QLASS在复杂任务中显著提升推理性能，并在标注数据减少时仍保持良好表现。