最近的研究发现,使用视觉语言模型可以开发多功能代理人来帮助人类完成图形用户界面导航任务。研究人员提出了GUICourse,一套用于训练基于视觉的图形用户界面代理人的数据集。实验证明,该代理人在常见的图形用户界面任务上表现更好。
最近的研究发现,使用视觉语言模型可以开发多功能代理人来帮助人类完成图形用户界面导航任务。研究者提出了GUICourse数据集,用于训练基于视觉的图形用户界面代理人,实验证明该代理人在常见的图形用户界面任务上具有更好的性能。源代码和数据集已发布。
完成下面两步后,将自动完成登录并继续当前操作。