小红花·文摘

本研究提出了OSUniverse基准，旨在评估AI代理在复杂多模态桌面任务中的导航能力。通过逐步增加任务复杂性，确保代理的表现不超过现有最先进水平，为GUI导航AI的进展提供可靠依据。