本研究提出了“偏好目标调优”(PGT)框架,以解决开放世界代理在指令跟随中受初始提示影响的问题。PGT通过收集轨迹并基于偏好分类来优化初始目标表示,实验结果表明其在多个任务中显著提升了代理的性能和泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。