Micropaper ·

AI 范式雷达：《从端到端成功率到细粒度规划诊断》

Q: 不可解任务识别的正确拒绝率是多少？

最高的正确拒绝率仅为34.7%。

💡 原文中文，约7200字，阅读约需18分钟。

📝

内容提要

一项研究评估了12个多模态大语言模型（MLLM）的规划能力，发现它们在不可解任务识别中的正确拒绝率仅为34.7%。研究提出了智能体规划基准（APB），通过五大评估设置揭示了模型在长程规划、工具鲁棒性和校准拒绝等方面的系统性弱点，强调规划能力的重要性。结果显示，模型在面对不可解任务时往往盲目尝试，可能导致资源浪费和有害输出。

🎯

关键要点

在12个多模态大语言模型中，最高的不可解任务识别正确拒绝率仅为34.7%。
APB（智能体规划基准）通过五大评估设置揭示了模型在长程规划、工具鲁棒性和校准拒绝等方面的系统性弱点。
端到端成功率掩盖了规划失败与执行失败的本质区别，导致无法有效判断问题所在。
APB的评估设置包括整体规划、反馈条件化逐步规划、冗余工具鲁棒性、损坏工具鲁棒性和不可解任务识别。
不可解任务识别测试显示，大多数模型在面对不可解任务时选择盲目尝试，可能导致资源浪费和有害输出。
长程规划的准确率随着任务步骤数的增加而显著下降，表现最好的模型在10步以上任务中的准确率降至约41%。
当前模型普遍缺乏对工具异常的检测和自动恢复能力，损坏工具鲁棒性普遍不足。
APB不仅是评估框架，还可以用于改进Agent的规划质量，通过识别具体的规划弱点进行针对性优化。

🔎

延伸解读

规划能力的重要性

文章强调了规划能力在AI代理中的核心地位。通过APB的评估，能够更清晰地识别出规划失败与执行失败的区别，从而为改进模型提供针对性指导。这种细粒度的分析有助于开发更高效的AI系统，避免资源浪费和潜在的有害输出。

不可解任务识别的挑战

研究显示，当前大多数多模态大语言模型在不可解任务识别方面表现不佳，最高正确拒绝率仅为34.7%。这一缺陷可能导致AI在面对无法完成的任务时盲目尝试，增加了风险。因此，提升这一能力对于确保AI系统的安全性和可靠性至关重要。

长程规划的衰减问题

文章指出，随着任务步骤的增加，模型在长程规划中的准确率显著下降。这一现象表明，AI代理在处理复杂任务时的能力有限，开发者需关注如何提升模型在长程任务中的表现，以确保其在实际应用中的有效性。

APB的应用与局限性

APB作为评估框架，能够帮助识别AI代理的规划弱点，但其适用范围也有局限。特别是对于纯文本模型，APB的评估可能不够公平。此外，标注的主观性和样本量的限制也可能影响评估结果的普遍适用性，开发者在使用时需谨慎考虑这些因素。

❓

延伸问答

不可解任务识别的正确拒绝率是多少？

最高的正确拒绝率仅为34.7%。

APB的五大评估设置是什么？

五大评估设置包括整体规划、反馈条件化逐步规划、冗余工具鲁棒性、损坏工具鲁棒性和不可解任务识别。

为什么端到端成功率不足以评估AI Agent的能力？

因为端到端成功率混淆了规划失败与执行失败，无法有效判断问题所在。

长程规划的准确率随着任务步骤数的增加有什么变化？

长程规划的准确率显著下降，表现最好的模型在10步以上任务中的准确率降至约41%。

APB如何帮助改进Agent的规划质量？

APB通过识别具体的规划弱点进行针对性优化，从而提升Agent的规划质量。

当前模型在损坏工具鲁棒性方面的表现如何？

所有模型在损坏工具的情况下，准确率均未超过60%，显示出系统性不足。

🏷️