本文介绍了OSWorld基准,评估多模态代理在369个计算机任务中的表现,强调其在开放领域的应用潜力。研究表明,尽管GPT-4等代理表现优异,但仅达到人类能力的15%。多个基准测试如VisualWebArena和WebVoyager揭示了多模态代理在实际应用中的挑战与进展,为未来研究提供了重要参考。
完成下面两步后,将自动完成登录并继续当前操作。