量子位 ·

DeepSeek再破谷歌OpenAI垄断：开源IMO数学金牌大模型

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

DeepSeek推出开源数学模型DeepSeekMath-V2，专注于自验证推理，表现超越谷歌和OpenAI，获得IMO金牌级分数。该模型通过迭代强化学习优化证明验证和生成，克服传统方法的局限性，展现出卓越的数学推理能力。

🎯

🔎

DeepSeekMath-V2作为第一个开源的IMO金牌模型，打破了谷歌和OpenAI的垄断，展示了开源技术在数学推理领域的潜力。开源不仅促进了技术的透明性，还可能吸引更多研究者参与，推动数学推理模型的进一步发展。

DeepSeekMath-V2引入的自验证机制显著提升了模型的证明质量。这种机制通过让生成器自我审查和修正，确保了逻辑的严谨性和推理的准确性。这一创新为未来的AI模型提供了新的思路，尤其是在需要高精度推理的领域。

传统的强化学习方法在数学推理中存在许多局限性，如对最终答案的依赖和缺乏内部验证能力。DeepSeekMath-V2通过迭代强化学习和元验证机制克服了这些问题，展示了更为可靠的推理能力。这一转变可能会影响未来AI模型的设计方向。

❓

DeepSeekMath-V2专注于自验证推理，采用迭代强化学习优化证明验证和生成，表现超越谷歌和OpenAI。

DeepSeekMath-V2在IMO 2025和CMO 2024中获得金牌级分数，并在Putnam 2024中得分118/120，超过人类最高分90。

该模型通过引入自验证机制和元验证机制，优化证明验证和生成，克服了最终答案奖励的不可靠性和缺乏内部验证能力的问题。

验证器通过收集数学问题和专家评分，利用强化学习进行训练，以识别证明中的问题并评分。

元验证机制作为二级评估过程，审查验证器生成的证明分析，确保识别出的问题真实且逻辑合理。

模型通过生成多个验证分析和利用元验证器确认问题有效性，建立了完全自动化的数据标注流程，取代了人工标注。

🏷️