本研究提出了OSUniverse基准,旨在评估AI代理在复杂多模态桌面任务中的导航能力。通过逐步增加任务复杂性,确保代理的表现不超过现有最先进水平,为GUI导航AI的进展提供可靠依据。
完成下面两步后,将自动完成登录并继续当前操作。