一项研究评估了12个多模态大语言模型(MLLM)的规划能力,发现它们在不可解任务识别中的正确拒绝率仅为34.7%。研究提出了智能体规划基准(APB),通过五大评估设置揭示了模型在长程规划、工具鲁棒性和校准拒绝等方面的系统性弱点,强调规划能力的重要性。结果显示,模型在面对不可解任务时往往盲目尝试,可能导致资源浪费和有害输出。
完成下面两步后,将自动完成登录并继续当前操作。