Iris:通过自适应聚焦和自我精炼突破GUI复杂性

📝

内容提要

本文解决了在高分辨率和视觉复杂的数字环境中,视觉代理在感知方面所面临的挑战。通过信息敏感裁剪(ISC)和自我精炼双重学习(SRDL)的创新,Iris能够动态识别并优先处理视觉密集区域,并通过双重学习循环提升复杂任务的处理能力。实证评估表明,Iris在多个基准测试中表现出色,且只需850K的GUI注释就超越了使用10倍训练数据的方法,显著提升了网络和操作系统代理的下游任务表现。

🏷️

标签

➡️

继续阅读