小红花·文摘

首页
广场
排行榜^🏆
直播
FAQ

一项研究评估了12个多模态大语言模型（MLLM）的规划能力，发现它们在不可解任务识别中的正确拒绝率仅为34.7%。研究提出了智能体规划基准（APB），通过五大评估设置揭示了模型在长程规划、工具鲁棒性和校准拒绝等方面的系统性弱点，强调规划能力的重要性。结果显示，模型在面对不可解任务时往往盲目尝试，可能导致资源浪费和有害输出。