浙大团队提出了一种自我监督的强化学习方法GUI-RCPO,能够在无标签数据上提升GUI定位能力。该方法通过区域一致性引导模型自我优化,减少对标注数据的依赖,展现出良好的泛化性和准确性。实验结果显示,GUI-RCPO在不同模型上均有显著提升,验证了其有效性。
完成下面两步后,将自动完成登录并继续当前操作。