小红花·文摘

本文介绍了OSWorld基准，评估多模态代理在369个计算机任务中的表现，强调其在开放领域的应用潜力。研究表明，尽管GPT-4等代理表现优异，但仅达到人类能力的15%。多个基准测试如VisualWebArena和WebVoyager揭示了多模态代理在实际应用中的挑战与进展，为未来研究提供了重要参考。