OS-ATLAS:通用图形用户界面代理的基础动作模型
原文中文,约600字,阅读约需2分钟。发表于: 。本研究旨在解决当前开源视觉语言模型在图形用户界面(GUI)基础和超出分布(OOD)任务中的性能欠缺问题。提出的OS-ATLAS模型通过创新的数据和建模方法,构建了一个优秀的开源GUI动作模型,并发布了最大规模的跨平台GUI基础数据集,显著提升了在多个平台上的性能表现,这为进一步的研究奠定了坚实基础。
本文介绍了GUICourse数据集,用于训练视觉图形用户界面代理人。通过引入GUIEnv、GUIAct和GUIChat数据集,提升了视觉语言模型的OCR、定位能力及图形用户界面知识。实验结果显示,该代理人在图形用户界面任务上优于基准模型。