ShowUI:一个面向图形用户界面的视觉-语言-动作模型
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出ShowUI模型,解决语言代理在理解用户界面视觉方面的局限。该模型通过UI引导的视觉标记选择,实现高效的GUI任务管理,零-shot屏幕定位准确率达到75.1%,并减少33%的冗余视觉标记。
🎯
关键要点
- 本研究提出ShowUI模型,解决语言代理在理解用户界面视觉方面的局限性。
- ShowUI模型通过UI引导的视觉标记选择和交错的视觉-语言-动作流,实现高效的GUI任务管理。
- 该模型在零-shot屏幕定位中达到了75.1%的准确率。
- 在训练过程中,ShowUI模型减少了33%的冗余视觉标记,显著提升了性能。
➡️