本研究提出了Aguvis,一个基于纯视觉的框架,旨在解决自动化图形用户界面(GUI)任务的复杂性和可变性。Aguvis能够跨平台操作,通过图像观察和自然语言指令实现自主交互,实验证明其在多种场景中优于现有技术,标志着自主纯视觉GUI代理的成功应用。
完成下面两步后,将自动完成登录并继续当前操作。