告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化
💡
原文中文,约3000字,阅读约需8分钟。
📝
内容提要
浙大团队提出了一种自我监督的强化学习方法GUI-RCPO,能够在无标签数据上提升GUI定位能力。该方法通过区域一致性引导模型自我优化,减少对标注数据的依赖,展现出良好的泛化性和准确性。实验结果显示,GUI-RCPO在不同模型上均有显著提升,验证了其有效性。
🎯
关键要点
- 浙大团队提出GUI-RCPO,一种自我监督的强化学习方法,提升GUI定位能力。
- GUI grounding是根据自然语言指令在用户界面中识别和定位目标元素的能力。
- 传统方法需要大量标注数据,GUI-RCPO通过区域一致性减少对标注数据的依赖。
- GUI-RC方法通过区域一致性进行空间投票,提取共识区域以提高定位精度。
- GUI-RCPO将区域一致性转化为自监督奖励信号,指导模型策略优化。
- 实验结果显示,GUI-RCPO在不同模型上均有显著提升,验证了其有效性。
- GUI-RCPO展现出良好的泛化能力,能够在无标签数据上自我提升。
- 研究团队提供案例分析,展示GUI-RC解决误导性和偏差性幻觉的能力。
- 研究揭示了test-time training在GUI智能体领域的潜力,为构建数据高效的智能体提供方向。
➡️