结构之法算法之道 ·

MLA实现及其推理上的十倍提速——逐行解读DeepSeek V2中多头潜在注意力MLA的源码(图、公式、代码逐一对应)

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

本文探讨了DeepSeek从教育向科技转型的过程，重点关注V3和R1模型的开源内容及复现问题。尽管V3未开源核心训练数据，但仍具科研价值。Open R1复现了R1的前两个训练阶段，并提供相关代码和实现细节，以帮助更多人理解和应用这些技术。

🎯

关键要点

DeepSeek从教育转型为科技，但教育业务仍在继续。
V3模型未开源核心训练数据，但开源了模型权重和推理脚本，具有科研价值。
Open R1复现了R1的前两个训练阶段，提供相关代码和实现细节。
V3开源内容包括模型权重、架构代码，但未包含完整训练流程和生产级优化代码。
R1开源内容包括模型权重和技术文档，但未公开原始训练数据和完整训练框架。
Open R1项目复现了R1的训练流程，提供了训练和评估模型的脚本。
R1的完整训练流程分为四个阶段，Open R1主要复现了前两个阶段。
课程《DeepSeek原理与项目实战营》将讲解Open R1的复现思路和源码。

❓

延伸问答

DeepSeek的V3模型开源了哪些内容？

V3模型开源了模型权重、模型结构和推理脚本，但未开源核心训练数据和完整训练流程。

Open R1项目复现了R1模型的哪些阶段？

Open R1复现了R1模型的前两个训练阶段，包括冷启动SFT和规则奖励下的RL。

DeepSeek从教育转型为科技的原因是什么？

DeepSeek转型为科技主要是为了适应市场需求和技术发展，尽管教育业务仍在继续。

R1模型的完整训练流程分为几个阶段？

R1模型的完整训练流程分为四个阶段。

DeepSeek V3和R1模型的科研价值体现在哪里？

尽管V3未开源核心训练数据，但其开源的模型权重和推理脚本具有科研价值，Open R1的复现也为理解和应用提供了支持。

《DeepSeek原理与项目实战营》课程的内容是什么？

该课程将讲解Open R1的复现思路和源码，帮助学员更好地理解和应用相关技术。

🏷️

继续阅读

[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
便宜好用真香！美国企业把DeepSeek买上了趋势榜第一
Ramp发布的2026年热门软件供应商榜单显示，中国AI公司DeepSeek首次重返增长，企业采用率为0.1%。其成本显著低于Anthropic和Open...
Roku LT OS开源解析：从遥控器系统到电动赛车控制平台
Roku开源了Roku LT OS，旨在为开发者提供轻量化架构和高度确定性的执行能力，适用于嵌入式设备和电动赛车。该系统强调资源控制和时间可预测性，已在电...
Crown Engine 0.63 恢复了其 OpenGL 渲染器，以支持旧版硬件
Crown Engine 0.63 是一款基于 C++ 的开源游戏引擎，新增 LOD 组组件以优化性能，并支持 OBJ 网格格式。更新改进了 FBX 导入...
阿里开源Open Code Review：一款AI代码评审命令行工具
阿里巴巴开源的Open Code Review（OCR）是一款AI代码审查工具，能够自动审查Git提交和代码变更。它通过分析代码库，识别潜在的空指针、线程...
SuperX首个美国AI推理云中心在丹佛投入运营
SuperX AI Technology Limited在丹佛正式启用首个美国AI推理云中心，基于NVIDIA技术，提供高性能、低延迟的AI推理服务，已被...