小红花·文摘 - 小红花技术领袖俱乐部

SuperX发布搭载NVIDIA Blackwell GPU的旗舰AI服务器

SuperX发布搭载NVIDIA Blackwell GPU的旗舰AI服务器

全球TMT-美通国际 ·

DeepSeek R2难产真相！金融时报爆料：华为昇腾芯片训练失败，揭秘国产AI算力的“卡脖子”困境。

DeepSeek R2难产真相！金融时报爆料：华为昇腾芯片训练失败，揭秘国产AI算力的“卡脖子”困境。

硕鼠的博客站 ·

斯坦福大学CS336课程介绍了混合专家模型的最新进展，强调其在高性能系统中的重要性。该模型通过稀疏激活多个子组件，提高了计算效率和性能。研究表明，在相同计算量下，混合专家模型的训练效果优于密集模型。开源系统DeepSeek展示了这一架构在大规模训练中的优势。

斯坦福大学CS336课程：从零开始的语言建模 - 2025年春季 - 混合专家模型

Josherich的博客 ·

开源赛道太挤了！月之暗面开源新版Muon优化器

开源赛道太挤了！月之暗面开源新版Muon优化器

机器之心 ·

PyTorch 如何驱动 AI 训练与推理

PyTorch 如何驱动 AI 训练与推理

Engineering at Meta ·

最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

机器之心 ·