本研究提出了STeCa框架,解决了LLM代理在长时间任务中因次优动作偏离轨迹的问题。通过步级奖励比较识别次优动作,并利用反思构建校准轨迹,显著提升了代理的决策能力和任务完成的稳健性。
完成下面两步后,将自动完成登录并继续当前操作。