全网都在扒的DeepSeek团队,是清北应届生撑起一片天

💡 原文中文,约4000字,阅读约需10分钟。
📝

内容提要

DeepSeek团队由清北应届生组成,专注于AI大模型研究,创新包括MLA注意力机制和GRPO算法,显著提升模型性能与训练效率。团队年轻化,重视能力,吸引了众多优秀人才。

🎯

关键要点

  • DeepSeek团队由清北应届生组成,专注于AI大模型研究。
  • DeepSeek-v3大模型以1/11算力训练出超过Llama 3 405B的开源模型。
  • 团队年轻化,重视能力,吸引了众多优秀人才。
  • DeepSeek-V2的关键创新是MLA新型注意力机制,显著减少计算量和推理显存。
  • GRPO算法是DeepSeek的另一项关键成果,显著减少训练资源需求。
  • 团队成员多为应届生和在读生,核心成员年轻化。
  • DeepSeek重视模型算法与硬件工程的配合,优化训练成本。
  • 团队运作结构灵活,鼓励自然分工和资源调配。
  • DeepSeek的用人标准看重能力而非经验,类似于OpenAI的用人策略。
➡️

继续阅读