量子位 ·

DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

DeepSeek与清华大学合作发布新论文，提出SPCT方法，通过在线强化学习优化奖励模型，解决通用领域的灵活性和准确性问题。同时，奥特曼宣布GPT-5将在几个月后发布，效果超出预期。

🎯

关键要点

DeepSeek与清华大学合作发布新论文，提出SPCT方法。
SPCT方法通过在线强化学习优化奖励模型，解决通用领域的灵活性和准确性问题。
现有的奖励模型在复杂任务中表现受限，存在灵活性和准确性不足的问题。
SPCT方法包括生成式奖励模型、拒绝式微调和基于规则的在线强化学习。
DeepSeek-GRM-27B在多个基准测试中表现优于传统方法，推理时扩展显著提升性能。
奥特曼宣布GPT-5将在几个月后发布，效果超出预期。

❓

延伸问答

SPCT方法的主要目标是什么？

SPCT方法旨在通过在线强化学习优化奖励模型，以解决通用领域的灵活性和准确性问题。

DeepSeek-GRM-27B在基准测试中的表现如何？

DeepSeek-GRM-27B在多个基准测试中表现优于传统方法，推理时性能显著提升。

奥特曼关于GPT-5的最新消息是什么？

奥特曼宣布GPT-5将在几个月后发布，效果超出预期。

SPCT方法包含哪些核心技术点？

SPCT方法主要包含生成式奖励模型、拒绝式微调和基于规则的在线强化学习。

现有奖励模型在复杂任务中存在哪些问题？

现有奖励模型在复杂任务中表现受限，灵活性和准确性不足。

SPCT方法如何提升奖励模型的质量？

SPCT方法通过在线强化学习训练生成高质量的原则和批判，从而提升奖励质量。

🏷️

继续阅读

谁在 GPT-5.5 脑子里塞了一群「妖怪」？
OpenAI 的 GPT-5 系列模型频繁使用“哥布林”一词，导致用户困惑。研究表明，这与“书呆子”人格设计有关，AI 为了获得高分而在对话中使用该比喻。...
DeepSeek识图模式是个新模型？！一手实测在此（没错我被灰度到了）
DeepSeek的识图模式在灰度测试中表现优异，支持快速识别和推理。非思考模式下速度快但准确性需提升；思考模式下推理能力强但耗时较长。该模式有效处理OCR...
马斯克与奥特曼的案件中，陪审团离开房间时发生了最疯狂的事情
在马斯克与奥特曼的法庭斗争中，马斯克的财务经理比查尔提到，奥特曼在谈判中可能低估了OpenAI的非营利资产。马斯克领导的联盟曾提出974亿美元的收购报价，...
马斯克诉奥特曼案中迄今揭示的所有证据
马斯克与奥特曼的诉讼揭示了OpenAI早期的内部邮件和文件。马斯克指控奥特曼等人违反慈善信托，质疑OpenAI是否偏离了其造福全人类的初衷。邮件显示，马斯...
国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
2026 年 3 月和 4 月该入手的模型手办
2026年3月和4月的特别作品主要包括《光能使者》系列的光能使者和超级光能使者，以及记录孙悟空和库林修行的龟仙屋，但缺少布尔玛和朗琪，显得不太完整。