像人类一样在数字世界中导航:GUI代理的通用视觉定位
原文中文,约600字,阅读约需2分钟。发表于: 。本研究解决了现有图形用户界面(GUI)代理在环境感知方面依赖文本表示所带来的噪声和不完整性的问题。通过引入视觉定位模型,使代理能够直接以像素级别操作GUI,我们收集了迄今为止最大的GUI视觉定位数据集,并开发了UGround模型,实验结果表明,UGround在多个基准测试中显著优于现有模型,验证了GUI代理像人类一样导航数字世界的可行性和潜力。
图形用户界面(GUI)是人机交互的重要部分。现有视觉语言模型在OCR、定位和GUI知识上存在不足,难以有效导航。为此,提出了GUICourse数据集,提升模型的OCR和定位能力,并丰富其GUI组件和交互知识。实验表明,改进后的GUI代理人在任务中优于基准模型,即使是小型代理人也能在单步和多步任务中表现良好。相关代码和数据集已发布。