OpenAI发布会没说的秘密：新指标遥遥领先，为何在关键的人类偏好测试中，它仍然输给了对手？｜GPT-5.2 vs Gemini 3 Pro benchmarks comparison

硕鼠的博客站 ·

OpenAI发布会没说的秘密：新指标遥遥领先，为何在关键的人类偏好测试中，它仍然输给了对手？｜GPT-5.2 vs Gemini 3 Pro benchmarks comparison

💡 原文中文，约6900字，阅读约需17分钟。

📝

内容提要

GPT-5.2是OpenAI最新发布的AI模型，旨在提升开发者的生产力，具备更强的推理能力和结构化输出。尽管输出质量显著提高，但速度较慢且上下文处理存在问题。新指标GDP val用于评估模型在复杂任务中的表现，GPT-5.2得分70.9，领先于其他模型，适合专业工作者使用。

🎯

关键要点

GPT-5.2是OpenAI最新发布的AI模型，旨在提升开发者的生产力。
GPT-5.2具备更强的推理能力和结构化输出，但速度较慢且上下文处理存在问题。
新指标GDP val用于评估模型在复杂任务中的表现，GPT-5.2得分70.9，领先于其他模型。
GPT-5.2的输出质量显著提升，但速度慢，用户需调整使用模式以提高效率。
上下文处理存在异常，建议在新话题中提问以避免影响答案质量。
图像推理能力增强，但生成部分未改进。
GDP val指标考核模型是否能完成复杂任务，强调一次性交付结果。
GPT-5.2在LM Arena上未领先，且与Garlic模型无关。
GPT-5.2主要面向专业知识工作者，特别是开发者，未来更新值得期待。
总结认为GPT-5.2为专业工作者而生，符合使用需求。

🏷️

继续阅读

马基参议员质疑OpenAI在ChatGPT中的‘欺骗性广告’
马基参议员对OpenAI在ChatGPT中引入广告表示担忧，认为这可能影响消费者保护和隐私。他向多家公司询问类似计划，并指出广告可能利用用户与聊天机器人的...
人工智能周报 #333 - ChatGPT 广告，智谱+华为，思维机器的动荡
OpenAI将在ChatGPT中测试广告，免费和付费用户将看到相关产品广告，广告与回答分开且不影响模型输出，敏感类别被排除。Thinking Machin...
早报｜苹果官宣马年优惠，最高省1000元/宇树澄清：去年人形机器人出货量超5500台/曝vivo叫停AI眼镜项目
苹果推出新春优惠，最高可省1000元，涵盖多款产品。腾讯因安全问题要求GitHub下架相关项目。OpenAI扩大机器人团队至百人。宇树科技确认人形机器人销...
Gitee 企业版测试管理全面升级：流程更顺畅，交付更可靠
Gitee 企业版优化了测试管理功能，增强了用例管理、测试计划执行和报告生成的规范性与协作效率。新增用例评审、执行记录和缺陷快速创建功能，支持自定义报告和...
Gitee 企业版三大模块升级解读：项目、工作项、测试体系全面进化！
Gitee 企业版全面升级项目管理、工作项体系和测试协作模块，提升效率与透明度。新增项目模板和可视化流程配置，优化多角色协作与测试管理，助力企业构建高效研发平台。
最奇怪的秘密
厄尔·南丁格尔在《最奇怪的秘密》中强调，成功的关键在于有目的地生活。统计数据显示，100名25岁年轻人中，65岁时只有1人富有，反映出许多人未能实现梦想。

OpenAI发布会没说的秘密：新指标遥遥领先，为何在关键的人类偏好测试中，它仍然输给了对手？｜GPT-5.2 vs Gemini 3 Pro benchmarks comparison

内容提要

关键要点

标签

继续阅读