美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准

📝

内容提要

美团 LongCat 团队研发的 VitaBench(Versatile Interactive Tasks Benchmark)正式发布,这是当前高度贴近真实生活场景所面临复杂问题的大模型智能体评测基准。VitaBench 以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体,构建了包含 66 个工具的交互式评测环境,并进行了跨场景的综合任务设计,例如要求 agent...

🏷️

标签

➡️

继续阅读