DeepSeek与清华大学合作发布新论文,提出SPCT方法,通过在线强化学习优化奖励模型,解决通用领域的灵活性和准确性问题。同时,奥特曼宣布GPT-5将在几个月后发布,效果超出预期。
本研究提出自原则评估调优(SPCT)方法,以提高大语言模型的奖励信号准确性。DeepSeek-GRM模型在奖励建模基准中超越现有方法,推动通用奖励系统的发展。
完成下面两步后,将自动完成登录并继续当前操作。