OpenAI ·

我们的首次证明提交

💡 原文英文，约800词，阅读约需3分钟。

📝

内容提要

我们对10个First Proof问题进行了内部测试，以评估AI系统的证明能力。专家反馈显示模型在多个问题上表现良好。我们正在训练新模型以提升推理严谨性，并与ChatGPT进行验证。期待未来与社区深入交流，评估研究级推理能力。

🎯

🔎

First Proof问题的设计旨在测试AI系统的证明能力，这些问题需要建立完整的论证链，且正确性难以验证。与传统的短答案题相比，这种挑战更能反映AI在复杂推理中的局限性，尤其是在缺乏专家审查的情况下。

当前正在训练的新模型重点提升推理的严谨性，目标是让模型能够长时间持续思考并对结论保持高度自信。这一过程的成功与否将直接影响AI在科学和数学领域的应用效果，值得关注其后续进展。

专家反馈在评估AI模型的证明能力中起着关键作用。通过与专家的互动，模型能够不断调整和优化其推理过程，这种反馈机制不仅提升了模型的准确性，也为未来的研究提供了宝贵的经验。

❓

First Proof问题是一种研究级数学挑战，旨在测试AI系统是否能够生成正确且可验证的证明尝试。

专家反馈显示，模型在多个问题上表现良好，至少五个问题的证明尝试有较高的正确性可能性。

我们正在训练新模型，重点是提高推理的严谨性，使模型能够持续思考并对结论保持高度自信。

模型在有限的人类监督下运行，训练过程中会根据专家反馈调整证明的部分，确保推理更易于验证。

我们期待与First Proof组织者讨论更严格的实验和评估框架，以便未来的迭代能够更有效地评估模型能力。

这项工作基于早期的前沿推理模型结果，展示了GPT-5在数学和科学领域的应用。

🏷️