机器之心 ·

LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

💡 原文中文，约2600字，阅读约需6分钟。

📝

内容提要

实验显示，大型语言模型（LLM）的规划能力有待提高。OpenAI 的 o1 模型推理能力强，但在 PlanBench 测试中规划能力不足。在 Blocksworld 和 Mystery Blocksworld 测试中，复杂问题准确率下降。o1 模型在某些实例表现好，但识别无法解决的实例能力有限。推理 token 数量限制可能影响其准确性和成本。

🎯

关键要点

大型语言模型（LLM）的规划能力仍需提高。
OpenAI 的 o1 模型在推理能力上表现强劲，但在 PlanBench 测试中规划能力不足。
o1 模型在 Blocksworld 和 Mystery Blocksworld 测试中的复杂问题准确率下降。
o1 模型在某些实例表现良好，但识别无法解决的实例能力有限。
推理 token 数量限制可能影响 o1 模型的准确性和成本。
PlanBench 基准测试显示，当前 LLM 在规划能力上仍然面临挑战。
o1 模型通过结合 RL 训练和自适应推理程序来增强规划能力。
o1 在 Blocksworld 测试中正确回答了 97.8% 的实例，但在更复杂的测试中表现不佳。
o1 模型在识别不可解决实例方面的表现不理想，准确率较低。
o1-preview 的推理 token 数量限制可能影响其整体准确性和推理成本。

❓

延伸问答

OpenAI的o1模型在规划能力上表现如何？

o1模型在PlanBench测试中表现不足，尤其在复杂问题上准确率下降。

o1模型在Blocksworld测试中的表现如何？

o1模型在Blocksworld测试中正确回答了97.8%的实例，但在更复杂的测试中表现不佳。

LLM的推理能力受什么限制？

推理token数量限制可能影响o1模型的准确性和推理成本。

o1模型如何增强其规划能力？

o1模型通过结合强化学习训练和自适应推理程序来增强规划能力。

PlanBench基准测试的目的是什么？

PlanBench基准测试用于评估大型语言模型在规划能力上的表现。

o1模型在识别不可解决实例方面的表现如何？

o1模型在识别不可解决实例方面表现不理想，仅27%的实例被正确识别。

🏷️

继续阅读

eBay拒绝游戏驿站560亿美元收购提案；OpenAI收购Tomoro并成立新实体；腾讯音乐完成收购喜马拉雅
OpenAI收购咨询公司Tomoro，成立新合资企业以推动人工智能应用。优步提高对Delivery Hero的收购报价。阳狮集团以22亿美元收购LiveR...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
[MAF预定义ChatClient中间件-03]CachingChatClient——利用缓存省钱省时间 - Artech
CachingChatClient是一个中间件，用于缓存LLM调用结果，减少重复调用的时间和费用。它通过检查缓存返回相同输入的响应，若不存在则调用LLM并...
梦境：为更有帮助的ChatGPT提供更好的记忆
OpenAI推出了更强大的记忆系统，通过“梦境”功能自动更新用户信息，提高ChatGPT在互动中的时效性和准确性。该更新已向美国的Plus和Pro用户推出...
使用Scikit-LLM与开源语言模型
本文介绍如何使用Ollama本地托管的开源语言模型（如Llama 3、Mistral和Gemma）进行文本分类，避免支付API费用。内容包括Ollama的...
Mavrix在劳德代尔堡设立美国新总部
(全球TMT 2026年06月05日讯)Mavrix宣布，在佛罗里达州劳德代尔堡设立美国总部。该公司2026年 […]