DeepSeek 提交的论文探讨了自我原则批评调整(SPCT)在通用奖励模型中的应用,显著提升了推理阶段的可扩展性和奖励模型的质量,超越了现有方法。DeepSeek-GRM-27B 模型在多个基准测试中表现优异,展现出更高的多样性和准确性。
完成下面两步后,将自动完成登录并继续当前操作。