STeCa: Step-level Trajectory Calibration for LLM Agent Learning
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了STeCa框架,解决了LLM代理在长时间任务中因次优动作偏离轨迹的问题。通过步级奖励比较识别次优动作,并利用反思构建校准轨迹,显著提升了代理的决策能力和任务完成的稳健性。
🎯
关键要点
-
本研究提出了STeCa框架,旨在解决LLM代理在长时间任务中因次优动作偏离轨迹的问题。
-
STeCa框架通过步级奖励比较来识别次优动作。
-
利用LLM驱动的反思,STeCa构建校准轨迹,从而提升代理的决策能力。
-
实验结果表明,STeCa显著优于现有方法,并增强了代理任务完成的稳健性。
➡️