量子位 ·

DeepSeek新数学模型刷爆记录！7B小模型自主发现671B模型不会的新技能

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

DeepSeek推出的Prover-V2模型专注于数学定理证明，刷新多项基准测试记录。该7B模型成功解决了671B模型未能解决的问题，展现出独特的推理模式。Prover-V2结合强化学习与子目标分解，提升了形式化与非形式化证明的能力，标志着数学领域的重要进展。

🎯

关键要点

DeepSeek推出的Prover-V2模型专注于数学定理证明，刷新多项基准测试记录。
Prover-V2模型成功解决了671B模型未能解决的问题，展现出独特的推理模式。
该模型结合强化学习与子目标分解，提升了形式化与非形式化证明的能力。
Prover-V2在普特南测试中解决了13个671B模型未能解决的问题。
DeepSeek-Prover系列模型已推出3款，分别为Prover-V1、Prover-V1.5和Prover-V2。
Prover-V2提出了“子目标分解的强化学习”，并整合了DeepSeek-V3的高上下文窗口和自然语言推理能力。
模型通过递归证明搜索合成冷启动推理数据，减轻计算负担。
使用合成冷启动数据进行子目标分解的强化学习，构建完整的形式化证明。
DeepSeek-Prover-V2采用两阶段训练，第一阶段聚焦快速生成Lean证明代码，第二阶段提升复杂问题推理能力。
Prover-V2在miniF2F测试中的通过率达到88.9%，并解决了普特南测试中的49道问题。
与Prover-V2一起推出的ProverBench包含325个问题，旨在评估高中竞赛和本科阶段数学问题。
Prover-V2的作者团队包括多位参与过前作的研究者，论文发布后引发社区关注。

🏷️

继续阅读

DeepSeek 与开源：肥沃土壤孕育 AI 硕果
中国开源生态经过二十年的发展，从零散探索到繁荣，推动了国产AI技术的崛起。DeepSeek等项目的成功得益于开源社区的积累与协作。尽管面临国际竞争，国内开...
具身智能资源汇总：机器人学习数据集，在线体验世界建模模型，英伟达/字节/小米等最新研究论文
本文系统整理了一批具身智能相关的高质量数据集、在线教程、论文，为进一步学习和研究提供参考，欢迎前往 hyper.ai 探索更多优质资源！
百万围观、HuggingFace多模态登顶，华人团队开源语音版「DeepSeek」海外爆火
微软发布 VibeVoice-ASR：一种统一的语音转文本模型，旨在一次性处理长达 60 分钟的音频
微软推出了VibeVoice-ASR，一个开源的语音转文本模型，支持最长60分钟的音频处理，输出结构化文本，包括“谁”、“何时”、“什么”。该模型允许用户...
AI辅助开发的主厨模型
随着AI编码助手的发展，开发者的角色正在转变为管理AI，专注于设计和质量控制。开发者需要掌握反馈循环、任务委派和模块化设计等新技能，以提高效率。同时，AI...
Adobe正在为娱乐行业开发“知识产权安全”的生成AI模型
Adobe正在开发Firefly Foundry生成AI工具，旨在满足影视制作需求并确保知识产权安全。该工具与多家影视公司合作，生成可用于视频和3D图形的...

DeepSeek新数学模型刷爆记录！7B小模型自主发现671B模型不会的新技能

内容提要

关键要点

标签

继续阅读