OpenAI o1 发布让人联想到苹果发布会——这只是一次渐进式更新

💡 原文英文,约1500词,阅读约需6分钟。
📝

内容提要

OpenAI推出了一系列新的推理模型,名为o1-preview和o1-mini。然而,这些模型在Aider基准测试中表现不佳,仅略高于先前的模型。与GPT-4o和GPT-4o-mini相比,o1模型更慢且更昂贵。OpenAI在推理时利用增加的计算能力改进了完成度,但在解决语言模型的挑战方面仍然缺乏进展。该行业仍然严重依赖人工干预,人工智能和人类之间的任务分配存在不平衡。o1模型的改进可能是微小的,较慢的响应时间可能会影响互动性。在推理过程中增加计算能力的趋势可能是该行业的一个趋势。

🎯

关键要点

  • OpenAI推出了新的推理模型o1-preview和o1-mini,但在Aider基准测试中表现不佳。
  • o1模型在速度和成本上都不如GPT-4o和GPT-4o-mini。
  • 尽管计算能力有所增加,但在解决语言模型的挑战方面仍然缺乏进展。
  • o1-preview模型在Aider基准测试中得分79.7%,与claude-3.5-sonnet的77.4%差距微小。
  • o1模型的响应时间比之前的模型慢3-10倍,完成成本高出10-100倍。
  • o1模型在简单文本输出格式的语法要求上存在问题。
  • o1模型的推理过程增加了不可见的“推理”令牌,导致成本上升。
  • 尽管o1模型在某些评估中得分较高,但并未解决生成AI面临的主要问题,如幻觉和输出可靠性。
  • 人类在评估中的参与可能是o1模型高分的关键因素。
  • 目前的生成AI仍然依赖人类进行数据准备和界面操作,未能有效解决基本任务。
  • o1模型可能为行业设定了新的发展方向,更多地将计算从训练转移到推理上。
➡️

继续阅读