AGUVIS框架通过纯视觉输入解决了GUI自动化的关键挑战,消除了对文本表示的依赖,提升了跨平台的泛化能力。该模型在基础和推理阶段有效结合,显著提高了任务执行的准确性和效率,成为首个完全自主的视觉智能体。
本文介绍来自 HKU & Salesforce 的 Aguvis。Aguvis 构建了统一的 grounding 和 reasoning 大数据集,采用两阶段训练方式提升模型在 GUI 交互中的规划推理能力。
本研究提出了Aguvis,一个视觉框架,旨在解决自动化图形用户界面任务的复杂性和可变性。实验结果表明,该框架在多种场景中优于现有技术,推动了自主视觉GUI代理的发展。
完成下面两步后,将自动完成登录并继续当前操作。