量子位 ·

o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

亚利桑那州立大学的研究表明，o1-preview在复杂规划任务中表现优于o1-mini，尤其在Blockworlds任务中准确率达到98%，而mini仅为56.6%。尽管o1-preview在规划能力上表现出色，但在识别不可解问题和处理长任务时仍有不足，且成本较高，需权衡性能与成本。

🎯

❓

o1-preview在复杂规划任务中表现显著优于o1-mini，特别是在Blockworlds任务中，准确率达到98%，而o1-mini仅为56.6%。

Blockworlds任务涉及在桌子上堆叠积木块，目标是从一个初始状态重新排列到目标配置。

o1-preview在处理长任务时性能迅速下降，且在识别不可解问题上的准确率也存在不足。

o1-mini的成本相比传统大模型翻番，而o1-preview的成本更高，需权衡性能与成本。

PlanBench评估基准专门为评估大模型的规划能力而设计，涵盖计划生成、成本最优规划等任务类型。

在全随机版本下，o1-preview的准确率为37.3%。

🏷️