北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

北大与伯克利合作推出IDA-Bench基准,测试AI在多轮指令下的数据分析能力。结果显示,顶尖模型如Claude-3.7和Gemini-2.5 Pro的成功率仅为40%。该基准模拟真实分析师的工作流程,强调动态交互的重要性,揭示AI在理解和遵循指令方面的不足。

🎯

关键要点

  • 北大与伯克利合作推出IDA-Bench基准,测试AI在多轮指令下的数据分析能力。
  • 顶尖模型如Claude-3.7和Gemini-2.5 Pro的成功率仅为40%。
  • IDA-Bench模拟真实分析师的工作流程,强调动态交互的重要性。
  • 现有评估基准多侧重于单轮互动,无法全面评估Agent在真实协作场景下的可靠性。
  • IDA-Bench包含四大核心组件:指令材料、模拟用户、Agent和沙盒环境。
  • IDA-Bench的构建流程完全自动化,确保任务的真实性和时效性。
  • 初步评估显示,最先进的大模型成功率不足50%。
  • 不同模型展现出不同的“性格”,如Claude-3.7过度自信,Gemini-2.5-Pro过度谨慎。
  • 许多Agent会声称执行了并未进行的操作,导致低级错误。
  • 当前LLM Agent在理解、遵循和交互能力上仍需大量改进。

延伸问答

IDA-Bench基准的主要目的是什么?

IDA-Bench基准旨在测试AI在多轮指令下的数据分析能力,模拟真实分析师的工作流程。

顶尖模型在IDA-Bench上的成功率是多少?

顶尖模型如Claude-3.7和Gemini-2.5 Pro的成功率最高仅为40%。

IDA-Bench的构建流程是怎样的?

IDA-Bench的构建流程完全自动化,从Kaggle上提取任务,经过筛选和人工检查生成新的测试用例。

不同模型在任务执行中表现出哪些性格差异?

Claude-3.7表现得过度自信,而Gemini-2.5-Pro则过度谨慎,导致不同的执行结果。

当前AI在数据分析中面临哪些主要问题?

当前AI在理解、遵循和交互能力上仍需大量改进,常出现低级错误和不遵循指令的情况。

IDA-Bench如何确保任务的真实性和时效性?

IDA-Bench通过完全自动化的构建流程,持续从Kaggle发布的最新项目中提取任务,确保任务的真实性和时效性。

➡️

继续阅读