量子位 ·

GPT-5.2果然反超谷歌Gemini 3 Pro！北大数院校友核心贡献

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

GPT-5.2系列在多个领域超越谷歌Gemini 3 Pro，特别是在表格、PPT、代码和长文档处理能力上显著提升，效率提高390倍，成本大幅降低，科学研究和视觉理解表现优异。新团队成员多为数学专业背景，推动技术进步。

🎯

关键要点

GPT-5.2系列在多个领域超越谷歌Gemini 3 Pro，特别是在表格、PPT、代码和长文档处理能力上显著提升。
GPT-5.2的效率提高了390倍，平均任务成本大幅降低。
新团队成员多为数学专业背景，推动技术进步。
GPT-5.2在高经济价值任务中表现优异，完成人类需要4-8小时才能完成的任务。
GPT-5.2在投行分析师的电子表格建模任务上得分提升了9.3%。
GPT-5.2的代码能力在SWE-bench Verified上得分达到80%。
长文档处理能力显著提升，成为首个在256k上下文长的模型达到接近100%准确率。
视觉理解能力提升，科学论文图表理解错误率降低了一半。
工具调用能力在多轮交互场景评测中取得98.7%的成绩。
GPT-5.2 Pro和Thinking在科学研究辅助方面表现出色，解题率创下新纪录。
OpenAI团队成员多为新面孔，带来新的技术进展。

🔎

延伸解读

技术进步的驱动力

GPT-5.2的显著提升得益于新团队成员的数学专业背景，这为技术进步提供了强有力的支持。随着更多数学人才的加入，OpenAI在算法优化和模型训练方面可能会持续取得突破，进一步推动AI技术的发展。

高经济价值任务的应用前景

GPT-5.2在高经济价值任务中的表现尤为突出，能够在短时间内完成复杂的分析工作。这一能力使其在金融、科研等领域的应用潜力巨大，企业可以利用其高效性来降低成本和提高决策效率。

长文档处理能力的突破

GPT-5.2在长文档处理能力上取得了重要进展，成为首个在256k上下文长的模型接近100%准确率。这一能力对于需要处理大量信息的行业，如法律和学术研究，具有重要的实用价值，能够显著提升工作效率。

视觉理解能力的提升

GPT-5.2在视觉理解方面的进步，尤其是在科学论文图表的理解上，错误率降低了一半。这意味着在数据分析和科研领域，AI可以更准确地辅助研究人员，从而提高研究的质量和效率。

❓

延伸问答

GPT-5.2相比于谷歌Gemini 3 Pro有哪些显著提升？

GPT-5.2在表格、PPT、代码和长文档处理能力上显著提升，效率提高390倍，成本大幅降低。

GPT-5.2在科学研究方面的表现如何？

GPT-5.2 Pro和Thinking在科学研究辅助方面表现出色，解题率创下新纪录，尤其在GPQA Diamond评测中得分高达93.2%。

GPT-5.2的代码能力如何？

GPT-5.2在SWE-bench Verified上得分达到80%，在SWE-Bench Pro上得分55.6%，在前端开发和复杂UI工作上表现明显更强。

GPT-5.2在处理长文档方面有什么突破？

GPT-5.2成为首个在256k上下文长的模型，达到接近100%准确率，显著提升了长文档处理能力。

GPT-5.2的视觉理解能力有何进展？

GPT-5.2在科学论文图表理解上错误率降低了一半，对图像中元素的空间位置把握更强。

GPT-5.2的团队背景如何？

GPT-5.2的新团队成员多为数学专业背景，许多成员是2024年后加入的北大和其他知名院校的校友。

🏷️