小红花·文摘

浙大团队提出了一种自我监督的强化学习方法GUI-RCPO，能够在无标签数据上提升GUI定位能力。该方法通过区域一致性引导模型自我优化，减少对标注数据的依赖，展现出良好的泛化性和准确性。实验结果显示，GUI-RCPO在不同模型上均有显著提升，验证了其有效性。