小红花·文摘

本研究提出了STeCa框架，解决了LLM代理在长时间任务中因次优动作偏离轨迹的问题。通过步级奖励比较识别次优动作，并利用反思构建校准轨迹，显著提升了代理的决策能力和任务完成的稳健性。