机器之心 ·

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

DeepSeek 提交的论文探讨了自我原则批评调整（SPCT）在通用奖励模型中的应用，显著提升了推理阶段的可扩展性和奖励模型的质量，超越了现有方法。DeepSeek-GRM-27B 模型在多个基准测试中表现优异，展现出更高的多样性和准确性。

🎯

🔎

SPCT方法通过引入拒绝式微调和基于规则的在线强化学习，显著提升了通用奖励模型的推理阶段可扩展性。这一创新不仅提高了奖励生成的质量，还为模型在多样性和准确性方面提供了更强的支持，展示了在复杂任务中的潜力。

DeepSeek-GRM-27B模型在多个基准测试中表现优异，尤其是在推理时间的扩展性能上。通过多次采样和投票机制，该模型能够生成更高质量的奖励，适应性强，适合广泛的应用场景。这使得它在与其他大型模型的比较中，展现出更好的性能。

元奖励模型（meta RM）在DeepSeek-GRM的投票过程中起到了关键作用。它通过过滤低质量样本，确保最终奖励的准确性和可靠性。这一机制的引入，进一步增强了模型的推理能力，尤其是在面对复杂和多样化的输入时。

❓

自我原则批评调整（SPCT）是一种新方法，用于提升通用奖励模型在推理阶段的可扩展性，结合拒绝式微调和基于规则的在线强化学习。

DeepSeek-GRM-27B模型在多个基准测试中表现优异，展现出更高的多样性和准确性，且在推理阶段的可扩展性上优于现有方法。

SPCT通过生成高质量的原则和批评内容，能够有效引导奖励的生成，从而提升奖励模型的表现。

主要贡献包括提出SPCT方法、引入元奖励模型以提升推理效果，以及在更大规模语言模型上应用SPCT以获得更好的扩展性。

SPCT的训练方案包含拒绝式微调和基于规则的在线强化学习两个阶段。

通过多次采样和投票机制，DeepSeek-GRM能够生成不同的原则集和相应的批评，从而选出最终的奖励，提高推理时间的扩展性能。

🏷️