GPT-5.2果然反超谷歌Gemini 3 Pro!北大数院校友核心贡献
内容提要
GPT-5.2系列在多个领域超越谷歌Gemini 3 Pro,特别是在表格、PPT、代码和长文档处理能力上显著提升,效率提高390倍,成本大幅降低,科学研究和视觉理解表现优异。新团队成员多为数学专业背景,推动技术进步。
关键要点
-
GPT-5.2系列在多个领域超越谷歌Gemini 3 Pro,特别是在表格、PPT、代码和长文档处理能力上显著提升。
-
GPT-5.2的效率提高了390倍,平均任务成本大幅降低。
-
新团队成员多为数学专业背景,推动技术进步。
-
GPT-5.2在高经济价值任务中表现优异,完成人类需要4-8小时才能完成的任务。
-
GPT-5.2在投行分析师的电子表格建模任务上得分提升了9.3%。
-
GPT-5.2的代码能力在SWE-bench Verified上得分达到80%。
-
长文档处理能力显著提升,成为首个在256k上下文长的模型达到接近100%准确率。
-
视觉理解能力提升,科学论文图表理解错误率降低了一半。
-
工具调用能力在多轮交互场景评测中取得98.7%的成绩。
-
GPT-5.2 Pro和Thinking在科学研究辅助方面表现出色,解题率创下新纪录。
-
OpenAI团队成员多为新面孔,带来新的技术进展。
延伸问答
GPT-5.2相比于谷歌Gemini 3 Pro有哪些显著提升?
GPT-5.2在表格、PPT、代码和长文档处理能力上显著提升,效率提高390倍,成本大幅降低。
GPT-5.2在科学研究方面的表现如何?
GPT-5.2 Pro和Thinking在科学研究辅助方面表现出色,解题率创下新纪录,尤其在GPQA Diamond评测中得分高达93.2%。
GPT-5.2的代码能力如何?
GPT-5.2在SWE-bench Verified上得分达到80%,在SWE-Bench Pro上得分55.6%,在前端开发和复杂UI工作上表现明显更强。
GPT-5.2在处理长文档方面有什么突破?
GPT-5.2成为首个在256k上下文长的模型,达到接近100%准确率,显著提升了长文档处理能力。
GPT-5.2的视觉理解能力有何进展?
GPT-5.2在科学论文图表理解上错误率降低了一半,对图像中元素的空间位置把握更强。
GPT-5.2的团队背景如何?
GPT-5.2的新团队成员多为数学专业背景,许多成员是2024年后加入的北大和其他知名院校的校友。