GPT-5.2果然反超谷歌Gemini 3 Pro!北大数院校友核心贡献

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

GPT-5.2系列在多个领域超越谷歌Gemini 3 Pro,特别是在表格、PPT、代码和长文档处理能力上显著提升,效率提高390倍,成本大幅降低,科学研究和视觉理解表现优异。新团队成员多为数学专业背景,推动技术进步。

🎯

关键要点

  • GPT-5.2系列在多个领域超越谷歌Gemini 3 Pro,特别是在表格、PPT、代码和长文档处理能力上显著提升。

  • GPT-5.2的效率提高了390倍,平均任务成本大幅降低。

  • 新团队成员多为数学专业背景,推动技术进步。

  • GPT-5.2在高经济价值任务中表现优异,完成人类需要4-8小时才能完成的任务。

  • GPT-5.2在投行分析师的电子表格建模任务上得分提升了9.3%。

  • GPT-5.2的代码能力在SWE-bench Verified上得分达到80%。

  • 长文档处理能力显著提升,成为首个在256k上下文长的模型达到接近100%准确率。

  • 视觉理解能力提升,科学论文图表理解错误率降低了一半。

  • 工具调用能力在多轮交互场景评测中取得98.7%的成绩。

  • GPT-5.2 Pro和Thinking在科学研究辅助方面表现出色,解题率创下新纪录。

  • OpenAI团队成员多为新面孔,带来新的技术进展。

延伸问答

GPT-5.2相比于谷歌Gemini 3 Pro有哪些显著提升?

GPT-5.2在表格、PPT、代码和长文档处理能力上显著提升,效率提高390倍,成本大幅降低。

GPT-5.2在科学研究方面的表现如何?

GPT-5.2 Pro和Thinking在科学研究辅助方面表现出色,解题率创下新纪录,尤其在GPQA Diamond评测中得分高达93.2%。

GPT-5.2的代码能力如何?

GPT-5.2在SWE-bench Verified上得分达到80%,在SWE-Bench Pro上得分55.6%,在前端开发和复杂UI工作上表现明显更强。

GPT-5.2在处理长文档方面有什么突破?

GPT-5.2成为首个在256k上下文长的模型,达到接近100%准确率,显著提升了长文档处理能力。

GPT-5.2的视觉理解能力有何进展?

GPT-5.2在科学论文图表理解上错误率降低了一半,对图像中元素的空间位置把握更强。

GPT-5.2的团队背景如何?

GPT-5.2的新团队成员多为数学专业背景,许多成员是2024年后加入的北大和其他知名院校的校友。

➡️

继续阅读