美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准

美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准

💡 原文中文,约4900字,阅读约需12分钟。
📝

内容提要

美团LongCat团队发布了VitaBench,这是一个针对大模型智能体的评测基准,涵盖外卖、餐饮和旅游等真实场景。VitaBench构建了66个工具的交互环境,量化了推理、工具使用和用户交互的复杂性。研究显示,当前模型在复杂任务中的成功率仅为30%,反映出智能体与实际应用需求之间的差距。该基准旨在推动智能体在真实生活中的研发与应用。

🎯

关键要点

  • 美团LongCat团队发布了VitaBench,这是一个针对大模型智能体的评测基准。
  • VitaBench涵盖外卖、餐饮和旅游等真实场景,构建了66个工具的交互环境。
  • 研究显示,当前模型在复杂任务中的成功率仅为30%,反映出智能体与实际应用需求之间的差距。
  • VitaBench旨在推动智能体在真实生活中的研发与应用。
  • 现有智能体评测基准与真实生活场景的应用需求之间存在显著差距。
  • 工具生态简单化,信息密度不足,模型探索性受限,交互动态性缺失是主要问题。
  • 真实世界的任务复杂性源于推理复杂性、工具复杂性和交互复杂性三大维度的交织。
  • VitaBench通过部分可观测马尔可夫决策过程(POMDP)量化智能体任务复杂度。
  • VitaBench的评测榜单将长期维护更新,欢迎关注。
  • VitaBench构建了400项评测任务,包括单场景任务和跨场景任务。
  • 实验结果显示,跨场景任务的成功率远低于单场景任务,模型行为高度不稳定。
  • 启用链式推理的模型在复杂任务中表现显著优于非思考型模型。
  • VitaBench的用户模拟器和评估器经过严格验证,确保评测结果可信。
  • 当前模型在推理、策略调度与自我反思等方面仍存在显著提升空间。
  • VitaBench不仅是评测基准,更是关于智能体任务复杂性的理论框架。

延伸问答

VitaBench的主要目的是什么?

VitaBench旨在推动智能体在真实生活场景中的研发与应用,填补智能体评测与实际应用需求之间的差距。

VitaBench是如何量化智能体任务复杂度的?

VitaBench通过推理复杂性、工具复杂性和交互复杂性三个维度对智能体任务进行量化拆解。

当前模型在复杂任务中的成功率是多少?

当前模型在复杂任务中的成功率仅为30%。

VitaBench包含多少个工具和评测任务?

VitaBench构建了66个工具的交互环境,并包含400项评测任务。

VitaBench的评测榜单将如何维护?

VitaBench的评测榜单将长期维护更新,用户可以持续关注。

VitaBench如何处理用户交互的复杂性?

VitaBench通过用户画像系统和动态状态演化来模拟用户的多样化行为和需求。

➡️

继续阅读