小红花·文摘 - 小红花技术领袖俱乐部

DeepSeek与清华大学合作发布新论文，提出SPCT方法，通过在线强化学习优化奖励模型，解决通用领域的灵活性和准确性问题。同时，奥特曼宣布GPT-5将在几个月后发布，效果超出预期。

DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

量子位 ·

本研究提出自原则评估调优（SPCT）方法，以提高大语言模型的奖励信号准确性。DeepSeek-GRM模型在奖励建模基准中超越现有方法，推动通用奖励系统的发展。

通用奖励建模的推理时间扩展

BriefGPT - AI 论文速递 ·