DEV Community ·

OpenAI o1 发布让人联想到苹果发布会——这只是一次渐进式更新

💡 原文英文，约1500词，阅读约需6分钟。

📝

内容提要

OpenAI推出了一系列新的推理模型，名为o1-preview和o1-mini。然而，这些模型在Aider基准测试中表现不佳，仅略高于先前的模型。与GPT-4o和GPT-4o-mini相比，o1模型更慢且更昂贵。OpenAI在推理时利用增加的计算能力改进了完成度，但在解决语言模型的挑战方面仍然缺乏进展。该行业仍然严重依赖人工干预，人工智能和人类之间的任务分配存在不平衡。o1模型的改进可能是微小的，较慢的响应时间可能会影响互动性。在推理过程中增加计算能力的趋势可能是该行业的一个趋势。

🎯

关键要点

OpenAI推出了新的推理模型o1-preview和o1-mini，但在Aider基准测试中表现不佳。
o1模型在速度和成本上都不如GPT-4o和GPT-4o-mini。
尽管计算能力有所增加，但在解决语言模型的挑战方面仍然缺乏进展。
o1-preview模型在Aider基准测试中得分79.7%，与claude-3.5-sonnet的77.4%差距微小。
o1模型的响应时间比之前的模型慢3-10倍，完成成本高出10-100倍。
o1模型在简单文本输出格式的语法要求上存在问题。
o1模型的推理过程增加了不可见的“推理”令牌，导致成本上升。
尽管o1模型在某些评估中得分较高，但并未解决生成AI面临的主要问题，如幻觉和输出可靠性。
人类在评估中的参与可能是o1模型高分的关键因素。
目前的生成AI仍然依赖人类进行数据准备和界面操作，未能有效解决基本任务。
o1模型可能为行业设定了新的发展方向，更多地将计算从训练转移到推理上。

❓

延伸问答

o1-preview和o1-mini模型的主要特点是什么？

o1-preview和o1-mini是OpenAI推出的新推理模型，但在Aider基准测试中表现不佳，速度和成本均高于GPT-4o和GPT-4o-mini。

o1模型在Aider基准测试中的表现如何？

o1-preview在Aider基准测试中得分79.7%，与claude-3.5-sonnet的77.4%差距微小，未能显示出显著的进步。

o1模型的响应时间和成本如何？

o1模型的响应时间比之前的模型慢3-10倍，完成成本高出10-100倍。

o1模型在解决语言模型挑战方面的进展如何？

尽管o1模型在计算能力上有所增加，但在解决语言模型的主要挑战如幻觉和输出可靠性方面仍然缺乏进展。

o1模型的推理过程有什么特点？

o1模型的推理过程增加了不可见的“推理”令牌，导致成本上升，并且在简单文本输出格式的语法要求上存在问题。

o1模型的发布对行业有什么影响？

o1模型可能为行业设定了新的发展方向，更多地将计算从训练转移到推理上，但也暴露了生成AI在基本任务上的依赖人类的问题。

🏷️