机器之心 ·

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

💡 原文中文，约5500字，阅读约需13分钟。

📝

内容提要

OpenAI发布了新推理模型o3和o3-mini。o3在ARC-AGI基准上取得突破，具备博士级问题解决能力；o3-mini则注重高效低成本，适合编程。两者尚未公开，需进行安全测试，预计一月底推出。

🎯

🔎

o3模型在ARC-AGI基准测试中取得了显著的成绩，成为首个突破该基准的AI模型。这一成就不仅展示了o3在处理复杂问题上的能力，也表明其在适应新任务方面的潜力。然而，尽管o3的表现令人振奋，但仍需注意其与人类智能的根本差异，尚未实现真正的AGI。

o3-mini作为o3的经济高效版本，专注于降低推理成本和提升速度，特别适合编程任务。其在数学问题上的表现与更高端的模型相当，显示出良好的性价比。对于开发者而言，o3-mini可能成为一种实用的工具，尤其是在资源有限的情况下。

OpenAI正在进行o3和o3-mini的外部安全测试，确保模型在实际应用中的安全性和可靠性。参与测试的研究人员需提交申请并提供相关背景信息，这一过程强调了安全评估在AI开发中的重要性。用户在使用新模型时应关注其安全性和潜在风险。

❓

o3模型具备博士级问题解决能力，并在ARC-AGI基准上取得突破，最低性能可达75.7%。

o3-mini是o3的经济高效版本，专注于提升推理速度和降低成本，适合编程任务。

OpenAI跳过o2是为了避免与英国电信公司O2的版权混淆。

o3在ARC-AGI基准测试中表现出重大飞跃，能够适应新任务，得分可达87.5%。

申请者可以在OpenAI网站上填写在线表格，申请测试o3-mini，o3的测试需等待。

OpenAI采用新的安全评估方法deliberative alignment，以提高模型的安全性。

🏷️