EDGE:通过丰富的多粒度合成数据增强的图形用户界面理解
📝
内容提要
本研究解决了现有图形用户界面(GUI)任务训练数据不足的问题。我们提出了EDGE,一个通用的数据合成框架,能够从网页自动生成大规模多粒度的训练数据,显著提升了大型视觉语言模型(LVLMs)对网页的理解能力。实验证明,该方法大幅降低了对手动标注的依赖,能够将所生成的数据迁移到新的桌面和移动环境中,推动相关研究的进展。
🏷️
标签
➡️