从用户界面轨迹识别用户目标
原文中文,约600字,阅读约需2分钟。发表于: 。介绍了从观察到的用户界面轨迹中抽取目标的任务,并提出了一种新的评估指标来评估特定用户界面环境下两个任务描述是否是释义关系。通过与用户界面自动化任务的逆关系,利用 Android-In-The-Wild 和 Mind2Web 数据集进行了实验,与人类和最先进的模型(GPT-4 和 Gemini-1.5 Pro)进行了比较,结果显示 Gemini 的表现优于 GPT 但仍不及人类,表明有很大的改进空间。
最近的研究发现,使用视觉语言模型可以开发多功能代理人来帮助人类完成图形用户界面导航任务。研究者提出了GUICourse数据集,用于训练基于视觉的图形用户界面代理人,实验证明该代理人在常见的图形用户界面任务上具有更好的性能。源代码和数据集已发布。