EDGE:通过丰富的多粒度合成数据增强的图形用户界面理解

📝

内容提要

本研究解决了现有图形用户界面(GUI)任务训练数据不足的问题。我们提出了EDGE,一个通用的数据合成框架,能够从网页自动生成大规模多粒度的训练数据,显著提升了大型视觉语言模型(LVLMs)对网页的理解能力。实验证明,该方法大幅降低了对手动标注的依赖,能够将所生成的数据迁移到新的桌面和移动环境中,推动相关研究的进展。

🏷️

标签

➡️

继续阅读