机器之心 ·

「DeepSeek接班OpenAI」，最新开源的R1推理模型，让AI圈爆了

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

DeepSeek发布了新模型DeepSeek-R1，具备强大的数学、代码和推理能力，全面对标OpenAI的o1。该模型通过多阶段强化学习训练，显著提升推理能力，并开源660B参数的模型权重。DeepSeek-R1的API定价具性价比，在多个基准测试中表现优异，超越许多现有模型。

🎯

关键要点

DeepSeek发布了新模型DeepSeek-R1，具备强大的数学、代码和推理能力。
DeepSeek-R1通过多阶段强化学习训练，显著提升推理能力，并开源660B参数的模型权重。
DeepSeek-R1的API定价具性价比，表现超越许多现有模型。
DeepSeek-R1-Zero采用群组相对策略优化（GRPO）来降低训练成本。
DeepSeek-R1-Zero的奖励设计包括准确度和格式两种互补机制。
DeepSeek-R1-Zero在AIME数学奥赛试卷中的表现显著提升，达到了与OpenAI-o1-0912相当的水平。
DeepSeek-R1的冷启动数据提高了模型的可读性和性能。
推理导向的强化学习训练增强了模型在编码、数学、科学和逻辑推理等任务中的能力。
开发团队通过拒绝采样和监督微调收集了约60万个推理相关的训练样本。
蒸馏技术使得小模型具备DeepSeek-R1的推理能力，显著增强了小模型的性能。

❓

延伸问答

DeepSeek-R1模型的主要特点是什么？

DeepSeek-R1具备强大的数学、代码和推理能力，通过多阶段强化学习训练显著提升推理能力，并开源660B参数的模型权重。

DeepSeek-R1的API定价如何？

DeepSeek-R1的API定价为每百万输入tokens 1元（缓存命中）/ 4元（缓存未命中），每百万输出tokens 16元，性价比高。

DeepSeek-R1-Zero与OpenAI-o1-0912的表现如何比较？

DeepSeek-R1-Zero在AIME数学奥赛试卷中的表现显著提升，达到了与OpenAI-o1-0912相当的水平，成功率甚至超过了后者。

DeepSeek-R1的训练过程中使用了哪些技术？

DeepSeek-R1的训练过程中使用了多阶段强化学习、群组相对策略优化（GRPO）、奖励设计和蒸馏技术等。

DeepSeek-R1-Zero的奖励机制是怎样设计的？

DeepSeek-R1-Zero的奖励机制包括准确度和格式两种互补机制，旨在提升模型的输出质量和规范性。

DeepSeek-R1的冷启动数据有什么优势？

DeepSeek-R1的冷启动数据提高了模型的可读性和性能，相比于DeepSeek-R1-Zero，表现更佳。

🏷️

继续阅读

著名终端 Warp 开源，由 OpenAI 赞助
Warp 现已开源，采用 AGPL 许可，OpenAI 成为其创始赞助商。Warp 是一款跨平台终端工具，结合 AI 和编辑器，提供类似聊天工具的界面，支...
第6章：工具篇——使用 RunningHub（ComfyUI）生成短剧
本章介绍了使用RunningHub（ComfyUI）生成短剧的工具和流程。ComfyUI是一个开源的AI视频创作引擎，支持多种主流模型，并允许用户灵活调整...
开源版的 GPT Image 2，信息图、连续图文、本地部署全拿下｜商汤SenseNova U1实测
SenseNova U1 是商汤发布的开源多模态模型，具备连续图文生成能力，能够同时生成文字和图片。该模型在信息图生成方面表现出色，采用 NEO-unif...
Zed AI 白嫖免费模型，搭配 DeepSeek v4，玩转 Agent 编程技巧 - 曦远Code
Zed 编辑器功能灵活，支持多种 AI 模型，用户可通过 ACP 协议配置 agent。虽然 AI 功能有限，但适合日常开发和文档生成，提供免费模型使用，...
Vim 替代者？微软开源命令行编辑器 Edit 2.0.0 发布，新增语法高亮功能，大小不到 300kB
微软开源的命令行编辑器 Edit 2.0.0 版本新增语法高亮功能，支持多种编程语言，体积轻巧，适用于 Windows、Linux 和 macOS，提供查...
晨昏线科技发布目标因果世界模型GCWM1
晨昏线科技发布了“目标因果世界模型（GCWM1）”，旨在提升具身智能的推理能力。该模型通过因果链推理机制，实现理解、预测和干预的闭环。同时，公司推出了Te...