ShowUI: A Vision-Language-Action Model for Graphical User Interfaces
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了ShowUI模型,旨在提升语言代理对用户界面视觉的理解能力。该模型通过UI引导的视觉标记选择和视觉-语言-动作流,实现高效的GUI任务管理,零-shot屏幕定位准确率达到75.1%,并减少33%冗余视觉标记,显著提升性能。
🎯
关键要点
- ShowUI模型旨在提升语言代理对用户界面视觉的理解能力。
- 该模型通过UI引导的视觉标记选择和视觉-语言-动作流实现高效的GUI任务管理。
- ShowUI在零-shot屏幕定位中达到了75.1%的准确率。
- 模型训练过程中减少了33%的冗余视觉标记,显著提升了性能。
➡️