像人类一样在数字世界中导航：GUI代理的通用视觉定位

本研究解决了现有图形用户界面（GUI）代理在环境感知方面依赖文本表示所带来的噪声和不完整性的问题。通过引入视觉定位模型，使代理能够直接以像素级别操作GUI，我们收集了迄今为止最大的GUI视觉定位数据集，并开发了UGround模型，实验结果表明，UGround在多个基准测试中显著优于现有模型，验证了GUI代理像人类一样导航数字世界的可行性和潜力。

图形用户界面（GUI）是人机交互的重要部分。现有视觉语言模型在OCR、定位和GUI知识上存在不足，难以有效导航。为此，提出了GUICourse数据集，提升模型的OCR和定位能力，并丰富其GUI组件和交互知识。实验表明，改进后的GUI代理人在任务中优于基准模型，即使是小型代理人也能在单步和多步任务中表现良好。相关代码和数据集已发布。

GUI GUICourse OCR 代理人定位