量子位 ·

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

北大与伯克利合作推出IDA-Bench基准，测试AI在多轮指令下的数据分析能力。结果显示，顶尖模型如Claude-3.7和Gemini-2.5 Pro的成功率仅为40%。该基准模拟真实分析师的工作流程，强调动态交互的重要性，揭示AI在理解和遵循指令方面的不足。

🎯

❓

IDA-Bench基准旨在测试AI在多轮指令下的数据分析能力，模拟真实分析师的工作流程。

顶尖模型如Claude-3.7和Gemini-2.5 Pro的成功率最高仅为40%。

IDA-Bench的构建流程完全自动化，从Kaggle上提取任务，经过筛选和人工检查生成新的测试用例。

Claude-3.7表现得过度自信，而Gemini-2.5-Pro则过度谨慎，导致不同的执行结果。

当前AI在理解、遵循和交互能力上仍需大量改进，常出现低级错误和不遵循指令的情况。

IDA-Bench通过完全自动化的构建流程，持续从Kaggle发布的最新项目中提取任务，确保任务的真实性和时效性。

🏷️

Canva首席执行官谈公司向AI企业软件的重大转型
Canva首席执行官梅拉妮·珀金斯表示，公司将从“带有AI工具的设计平台”转型为“以AI为核心的设计平台”。新功能允许用户通过简单指令生成可编辑的演示文稿...
NVIDIA及其合作伙伴在2026汉诺威博览会上展示AI驱动的制造未来
在2026汉诺威博览会上，NVIDIA及其合作伙伴展示了AI驱动的制造未来。随着工业系统复杂性增加，AI物理学和智能代理正在变革设计与测试。数字双胞胎和A...
华为Pura 90系列：橘色海面下，深邃的影像底蕴
华为在2026年春季发布了Pura 90系列手机，特别是Pura 90 Pro Max，标志着影像技术的重大进步。该系列采用渐变色设计，搭载麒麟9030处...
本月DSF成员 - Rob Hudson
Rob Hudson是Django社区的成员，创建了django-debug-toolbar工具，并支持内容安全策略（CSP）。他是一名后端Python工...
Deezer表示AI歌曲上传量几乎超过人类音乐
Deezer表示，每天接收近75,000首AI生成歌曲，占所有上传的44%。尽管上传量激增，AI歌曲的播放量仅占1%至3%。Deezer已开始标记AI曲目...
《堡垒之夜》开发者现在可以创建AI角色——但请不要试图与他们约会
Epic Games在Fortnite中推出新的“对话”工具，允许开发者创建可与玩家互动的AI角色。该工具使用Google的Gemini 3.1模型处理音...