ShowUI: A Vision-Language-Action Model for Graphical User Interfaces

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了ShowUI模型,旨在提升语言代理对用户界面视觉的理解能力。该模型通过UI引导的视觉标记选择和视觉-语言-动作流,实现高效的GUI任务管理,零-shot屏幕定位准确率达到75.1%,并减少33%冗余视觉标记,显著提升性能。

🎯

关键要点

  • ShowUI模型旨在提升语言代理对用户界面视觉的理解能力。
  • 该模型通过UI引导的视觉标记选择和视觉-语言-动作流实现高效的GUI任务管理。
  • ShowUI在零-shot屏幕定位中达到了75.1%的准确率。
  • 模型训练过程中减少了33%的冗余视觉标记,显著提升了性能。
➡️

继续阅读