使用视觉语言模型开发多功能代理人来帮助人类完成图形用户界面导航任务。提出了GUICourse数据集用于训练代理人,实验证明其在常见的图形用户界面任务上具有更好的性能。源代码和数据集已发布。
完成下面两步后,将自动完成登录并继续当前操作。