ShowUI:一个面向图形用户界面的视觉-语言-动作模型

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出ShowUI模型,解决语言代理在理解用户界面视觉方面的局限。该模型通过UI引导的视觉标记选择,实现高效的GUI任务管理,零-shot屏幕定位准确率达到75.1%,并减少33%的冗余视觉标记。

🎯

关键要点

  • 本研究提出ShowUI模型,解决语言代理在理解用户界面视觉方面的局限性。
  • ShowUI模型通过UI引导的视觉标记选择和交错的视觉-语言-动作流,实现高效的GUI任务管理。
  • 该模型在零-shot屏幕定位中达到了75.1%的准确率。
  • 在训练过程中,ShowUI模型减少了33%的冗余视觉标记,显著提升了性能。
➡️

继续阅读