训练成本29.4万美元，DeepSeek-R1登Nature封面，首个通过权威期刊同行评审的主流大模型获好评

HyperAI超神经 ·

训练成本29.4万美元，DeepSeek-R1登Nature封面，首个通过权威期刊同行评审的主流大模型获好评

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

DeepSeek-R1于9月17日登上《Nature》封面，成为首个经过同行评审的大模型。其训练成本仅为29.4万美元，远低于行业标准。研究表明，DeepSeek-R1-Zero在推理能力上表现出色，数学竞赛准确率提升至86.7%。该成果为AI研究提供了透明和规范的范例。

🎯

关键要点

DeepSeek-R1于9月17日登上《Nature》封面，成为首个经过同行评审的大模型。
DeepSeek-R1的训练成本仅为29.4万美元，远低于行业标准。
DeepSeek-R1-Zero在推理能力上表现出色，数学竞赛准确率提升至86.7%。
DeepSeek-R1的研究成果通过同行评审，提供了透明和规范的AI研究范例。
DeepSeek-R1的训练使用了648张H800 GPU，耗时约198小时。
DeepSeek-R1-Zero采用了群组相对策略优化（GRPO）作为强化学习框架，跳过传统的监督微调阶段。
DeepSeek-R1-Zero展现出多样而复杂的推理行为，能够生成更长的回答并进行反思。
模型在AIME 2024数学竞赛中的pass@1分数从15.6%提升至77.9%。
DeepSeek-R1的多阶段pipeline显著提升了指令执行表现。
DeepSeek-R1的研究为未来更透明的AI研究实践提供了范例。

❓

延伸问答

DeepSeek-R1的训练成本是多少？

DeepSeek-R1的训练成本为29.4万美元。

DeepSeek-R1-Zero在推理能力上表现如何？

DeepSeek-R1-Zero在推理能力上表现出色，数学竞赛准确率提升至86.7%。

DeepSeek-R1是如何进行训练的？

DeepSeek-R1使用了648张H800 GPU，训练耗时约198小时。

DeepSeek-R1的研究成果有什么重要意义？

DeepSeek-R1是首个经过同行评审的大模型，为AI研究提供了透明和规范的范例。

DeepSeek-R1-Zero采用了什么样的强化学习框架？

DeepSeek-R1-Zero采用了群组相对策略优化（GRPO）作为强化学习框架。

DeepSeek-R1在数学竞赛中的表现如何？

DeepSeek-R1在AIME 2024数学竞赛中的pass@1分数从15.6%提升至77.9%。

🏷️

继续阅读

LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
早报｜曝苹果Vision Pro系列被砍/多地高考将查验智能眼镜/DeepSeek首轮融资规模约500亿元
苹果智能眼镜产品线调整，仅剩两款，Vision Pro系列被取消。DeepSeek计划融资500亿元，腾讯和宁德时代为主要投资者。高考将查验智能眼镜，考生...
一千台599美元Mac mini替代H100跑大模型：便宜十倍
一千台599美元的Mac mini可以替代昂贵的H100服务器，具有低成本和低功耗的优势。Mac mini的统一内存架构提升了AI模型的运行效率，适合本地...
人工智能成本危机终于有了监管机构——只是并不是那些造成危机的公司
Linux基金会宣布成立Tokenomics基金会，旨在为AI代币消费建立开放标准和最佳实践。该基金会将于6月在FinOps X正式启动，获得谷歌、微软等...
给 WordPress 7.0 的 AI 连接功能加上 DeepSeek 支持
WordPress 7.0 更新了 AI 连接功能，但仅支持国外提供商。为此，开发者推出了 WPJAM AI 插件，支持国内的 DeepSeek 等模型。...
NVIDIA研究解锁先进抓取技术、更智能的自动驾驶和大规模代理训练
NVIDIA的研究展示了通过大规模训练提升机器人抓取、自动驾驶和虚拟代理能力的突破。GraspGen-X模型适应不同抓手，LCDrive加速自动驾驶决策，...