小红花·文摘

北大与伯克利合作推出IDA-Bench基准，测试AI在多轮指令下的数据分析能力。结果显示，顶尖模型如Claude-3.7和Gemini-2.5 Pro的成功率仅为40%。该基准模拟真实分析师的工作流程，强调动态交互的重要性，揭示AI在理解和遵循指令方面的不足。

量子位 ·

本研究提出了Multi-IF基准，以评估大型语言模型（LLMs）在多轮和多语种指令执行中的能力。研究发现，最新的LLM在多轮指令执行中的失败率显著提高，尤其是在非拉丁文字语言中，显示出其多语种能力的局限性。

BriefGPT - AI 论文速递 ·