量子位 ·

告别海量标注！浙大团队提出GUI-RCPO，让GUI定位在无标签数据上自我进化

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

浙大团队提出了一种自我监督的强化学习方法GUI-RCPO，能够在无标签数据上提升GUI定位能力。该方法通过区域一致性引导模型自我优化，减少对标注数据的依赖，展现出良好的泛化性和准确性。实验结果显示，GUI-RCPO在不同模型上均有显著提升，验证了其有效性。

🎯

🔎

GUI-RCPO方法通过自我监督的强化学习，显著减少了对标注数据的依赖。这一创新使得模型能够在无标签数据上自我提升，降低了数据准备的成本和时间，适用于数据稀缺的场景。

区域一致性在GUI-RCPO中起到了核心作用。通过多次采样的结果进行空间投票，模型能够提取出共识区域，从而提高定位的准确性。这种方法不仅提升了模型的信心，也增强了其在复杂场景中的表现。

实验结果表明，GUI-RCPO在不同模型和基准测试中均表现出色，显示出良好的泛化能力。这意味着该方法不仅适用于特定任务，还能在多种应用场景中有效提升GUI智能体的性能。

❓

GUI-RCPO是一种自我监督的强化学习方法，旨在提升GUI定位能力，特别是在无标签数据上自我优化。

GUI grounding是根据自然语言指令在用户界面中识别和定位目标元素的能力，提升这一能力可以增强GUI智能体的界面理解和交互精度。

GUI-RCPO通过区域一致性引导模型自我优化，利用无标签数据进行自我提升，从而减少对大量标注数据的需求。

实验表明，GUI-RCPO在不同模型上均有显著提升，且在无标签数据上展现出良好的泛化能力，证明了其有效性。

GUI-RCPO通过多次采样和区域一致性投票，成功纠正了模型在误导性幻觉下的错误定位，提高了定位的准确性。

GUI-RC是基于区域一致性进行空间投票的方法，而GUI-RCPO则是将区域一致性转化为自监督奖励信号，指导模型策略优化。

🏷️