硕鼠的博客站 ·

OpenAI发布会没说的秘密：新指标遥遥领先，为何在关键的人类偏好测试中，它仍然输给了对手？｜GPT-5.2 vs Gemini 3 Pro benchmarks comparison

💡 原文中文，约6900字，阅读约需17分钟。

📝

内容提要

GPT-5.2是OpenAI最新发布的AI模型，旨在提升开发者的生产力，具备更强的推理能力和结构化输出。尽管输出质量显著提高，但速度较慢且上下文处理存在问题。新指标GDP val用于评估模型在复杂任务中的表现，GPT-5.2得分70.9，领先于其他模型，适合专业工作者使用。

🎯

🔎

尽管GPT-5.2在输出质量上有显著提升，但其速度较慢的问题不容忽视。用户在使用时可能需要调整使用模式，例如选择直出模式以提高效率。此外，考虑到新版本发布初期的用户量激增，速度问题可能会有所改善。

GPT-5.2在上下文处理上存在异常，用户在提问新话题时最好开启新对话，以避免前文内容影响答案质量。这一问题可能会影响用户体验，尤其是在需要清晰、独立回答的场景中。

新引入的GDP val指标专注于评估模型在复杂任务中的表现，强调一次性交付结果的能力。这一指标的设计旨在提升专业知识工作者的生产力，尤其适合开发者使用。用户在选择模型时应关注其在实际工作中的适用性。

❓

GPT-5.2具备更强的推理能力和结构化输出，旨在提升开发者的生产力，但速度较慢且上下文处理存在问题。

GDP val指标用于评估模型在复杂任务中的表现，考核其是否能从头到尾完成任务并直接交付可用结果。

GPT-5.2的速度较慢，用户需要调整使用模式以提高效率，例如使用自动模式或直出模式。

GPT-5.2的上下文处理经常出现异常，可能会将之前的问题答案混入新的回答中，影响答案质量。

虽然GPT-5.2在某些指标上领先于Gemini 3 Pro，但在LM Arena的测试中并未表现出优势。

GPT-5.2主要面向专业知识工作者，特别是开发者，旨在提升他们的工作效率。

🏷️