结构之法算法之道 ·

一文速览推理模型DeepSeek R1：如何通过纯RL训练以比肩甚至超越OpenAI o1(含Kimi K1.5、QwQ-32B的解读)

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

DeepSeek-R1和Kimi K1.5相继发布，技术报告显示其性能超越OpenAI的o1模型。DeepSeek-R1通过纯强化学习提升推理能力，经过多阶段训练和冷启动数据，最终性能与o1相当。这表明大模型在推理方面的进步，具身智能领域也因此受益。

🎯

🔎

DeepSeek-R1通过结合冷启动数据和多阶段训练流程，显著提升了推理性能。这种方法不仅解决了可读性差的问题，还增强了模型的自我进化能力，展示了在没有监督数据的情况下，如何有效提升大模型的推理能力。

DeepSeek-R1和Kimi K1.5的性能在多个指标上超越OpenAI的o1模型，表明国内技术在推理能力上取得了显著进展。这一现象可能会促使更多企业关注自主研发大模型，减少对外部技术的依赖。

DeepSeek-R1-Zero采用纯强化学习（RL）进行训练，尽管取得了显著的性能提升，但也面临奖励欺骗等挑战。开发者需谨慎设计奖励系统，以确保模型的稳定性和可靠性，避免在大规模训练中出现意外结果。

❓

DeepSeek-R1的性能在多个指标上超越了OpenAI的o1模型，尤其是在推理能力方面。

DeepSeek-R1通过纯强化学习训练，结合冷启动数据和多阶段训练流程，显著提升了推理性能。

DeepSeek-R1-Zero是一个通过纯强化学习训练的模型，未使用任何监督数据，显著提高了推理性能。

DeepSeek-R1-Zero在AIME 2024基准测试中的pass@1得分从15.6%提高到71.0%，显示出显著的性能提升。

DeepSeek-R1采用基于规则的奖励系统，包括准确性奖励和格式奖励，以优化模型的推理能力。

DeepSeek-R1的训练模板设计简单，指导模型遵循指定指令，确保模型在强化学习过程中自然进展。

🏷️