HyperAI超神经 ·

GPT-5全面领先，OpenAI发布FrontierScience，「推理+科研」双轨检验大模型能力

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

OpenAI推出FrontierScience基准测试，评估AI在科学推理和研究中的能力。GPT-5.2表现优异，但在复杂科研任务上仍有不足。该测试强调原创性和专家参与，为AI改进提供新参考。

🎯

🔎

FrontierScience基准测试由领域专家设计，结合了奥林匹克题型和研究类题型，旨在全面评估AI的科学推理和研究能力。这种双轨评估方式不仅关注模型的答案正确性，还强调推理过程的完整性，提供了更具挑战性的评测标准。

尽管GPT-5.2在Olympiad子集上表现优异，但在Research子集的复杂科研任务中仍显不足。这表明，尽管AI在封闭式推理中接近人类水平，但在开放式科研推理中仍需改进，尤其是在处理长链推理和复杂变量时。

OpenAI指出，FrontierScience的局限性在于无法涵盖科学家日常工作的所有维度。未来的基准测试需要更具挑战性和原创性，以推动AI在科研领域的应用。因此，FrontierScience为后续模型改进提供了新的参考框架，值得关注。

❓

FrontierScience基准测试旨在评估AI在科学推理和研究中的能力。

GPT-5.2在FrontierScience-Olympiad和Research任务中分别得分25%和77%，表现优异。

FrontierScience具有范围较窄的局限性，无法涵盖科学家日常工作的全部内容。

FrontierScience数据集由专家原创设计，包含Olympiad和Research两个子集，旨在系统性评估大模型的能力。

Olympiad子集侧重封闭式精确推理，Research子集模拟真实科研过程，包含更开放的问题。

OpenAI认为FrontierScience为后续模型改进和科学智能研究提供了新的参照坐标，强调原创性和专家参与。

🏷️