北大与伯克利合作推出IDA-Bench基准,测试AI在多轮指令下的数据分析能力。结果显示,顶尖模型如Claude-3.7和Gemini-2.5 Pro的成功率仅为40%。该基准模拟真实分析师的工作流程,强调动态交互的重要性,揭示AI在理解和遵循指令方面的不足。
完成下面两步后,将自动完成登录并继续当前操作。