深度搜索R1发布100天后的跟踪调查:复现研究及推理语言模型的新方向 本研究解决了对DeepSeek-R1及其相关模型开放性不够的缺失,旨在通过复现研究展示其杰出性能。论文重点探讨了监督微调(SFT)和基于可验证奖励的强化学习(RLVR)这两个方向的研究进展,揭示了在数据准备及方法设计方面的重要发现,助力未来研究发展。期待本报告能激发对推理语言模型的进一步探索和应用潜力。 本研究复现了DeepSeek-R1模型,探讨了监督微调和基于可验证奖励的强化学习的进展,强调数据准备和方法设计的重要性,以促进未来研究的发展。 DeepSeek-R1 强化学习 数据准备 方法设计 监督微调 语言模型