Shadow Walker 松烟阁 ·

关于DeepSeek我是怎么研究的(4)

💡 原文中文，约8500字，阅读约需21分钟。

📝

内容提要

DeepSeek-V3模型基于Transformer架构，采用MLA和DeepSeekMoE设计，优化了专家划分和负载均衡策略。使用FP8混合精度框架进行训练，提高了效率和性能。DeepSeek的开源特性使中小企业和学术机构能够以低成本使用大模型，推动AI领域发展。

🎯

❓

DeepSeek-V3模型基于Transformer架构，采用MLA和DeepSeekMoE设计，优化了专家划分和负载均衡策略。

DeepSeek-V3使用FP8混合精度框架进行训练，通过细粒度的量化策略和高精度累加来提高训练效率。

DeepSeek的开源特性使中小企业和学术机构能够以低成本使用大模型，推动AI领域的发展。

MLA技术通过低秩联合压缩注意力键和值，减少推理过程中的KV缓存，从而提高推理效率。

DeepSeek-V3引入了无辅助损失的负载平衡策略，通过动态调整每个专家的偏差项来实现负载均衡。

DeepSeek-V3在训练中采用了16-way Pipeline Parallelism、64-way Expert Parallelism和ZeRO-1 Data Parallelism等多种并行策略。

🏷️

微软如何将仓库迁移至GitHub
微软的Azure DevOps在过去十年中支持软件开发，随着AI的发展，代码存储位置变得至关重要。CAP组织已将80%的仓库迁移至GitHub，利用AI能...
Harness Engineering：把 AI 真正接进工程流程 - SharpCJ
Harness Engineering 旨在将 AI 纳入工程流程，通过明确任务边界、上下文和验证机制，提升 AI 的执行稳定性。它强调 AI 在清晰框架...
为什么程序员反而是受 AI 冲击最大的岗位
AI对程序员职业的冲击主要源于工作高度结构化和自动化能力。代码生成和错误排查等任务易被AI替代，但复杂决策仍需人类参与。未来程序员应专注于问题定义、系统拆...
教你薅token：构建agent无关的AI工作流
目前使用AI的主要痛点是高昂的账单。用户可以通过维护良好的文档来优化使用流程，减少对高价Agent的依赖。合理利用免费资源可以节省开支，维护好文档有助于降...
如何使您的设计系统适应人工智能
为了提高AI生成原型的质量，设计系统需要更好的指导和清晰的决策。建议使用FigmaLint工具进行审计，确保设计原则和规范文件的更新。设计决策应视为基础设...
五篇清晰解释大型语言模型的有趣论文
本文介绍了五篇关于大型语言模型（LLMs）的重要论文，涵盖其核心概念和技术。首先是“Attention Is All You Need”，提出了Trans...