Spider2-V是首个专注于数据科学和工程工作流程的多模态代理基准,包含494个真实任务,评估多模态代理在数据相关任务中的能力。文章还介绍了WebVoyager等多模态模型,展示了它们在实际应用中的成功率和评估方法,强调了多模态代理在自动化数据科学中的潜力与挑战。
完成下面两步后,将自动完成登录并继续当前操作。