小红花·文摘

本研究提出了DeepSeek-Prover-V2模型，利用强化学习将复杂的形式数学推理问题分解为子目标，从而提升推理效率。该模型在神经定理证明领域表现优异，尤其在AIME竞赛问题上取得了显著成果，缩小了形式与非形式数学推理之间的差距。