本研究提出QLASS方法,解决语言代理在缺乏中间交互注释时的次优政策问题。通过推理树和过程奖励建模,QLASS在复杂任务中显著提升推理性能,并在标注数据减少时仍保持良好表现。
本研究提出了ShowUI模型,旨在提升语言代理对用户界面视觉的理解能力。该模型通过UI引导的视觉标记选择和视觉-语言-动作流,实现高效的GUI任务管理,零-shot屏幕定位准确率达到75.1%,并减少33%冗余视觉标记,显著提升性能。
本研究提出了一种基于模型的规划方法,通过WebDreamer利用大型语言模型作为网络环境的世界模型,显著提升了语言代理在自动化网络任务中的表现,为未来研究开辟了新方向。
本研究通过构建TextGym模拟器,比较了PPO代理和语言代理。通过实验和研究,初步评估了语言代理在序列决策问题中替代PPO代理的潜力。为语言代理的性能提供了新的认识,并为未来研究铺平了道路。
完成下面两步后,将自动完成登录并继续当前操作。