摩尔线程S5000 + 智源FlagOS：基于原生FP8引擎，Day-0适配DeepSeek-V4

实时互动网 ·

摩尔线程S5000 + 智源FlagOS：基于原生FP8引擎，Day-0适配DeepSeek-V4

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

摩尔线程与智源众智FlagOS社区合作，在MTT S5000 GPU上快速适配DeepSeek-V4-Flash模型。该模型采用混合专家架构，参数量达到284B，支持百万token上下文。MTT S5000原生支持FP8精度，提升计算效率。双方通过编译优化和自动调优，提升了FP8和Sparse Attention算子的性能，降低延迟并提高吞吐量。未来将继续推进DeepSeek-V4-Pro的适配工作。

🎯

关键要点

摩尔线程与智源众智FlagOS社区合作，在MTT S5000 GPU上实现DeepSeek-V4-Flash模型的快速适配。
DeepSeek-V4-Flash模型采用混合专家架构，参数量达到284B，支持百万token上下文。
MTT S5000原生支持FP8精度，提升计算效率，显存带宽压力降低50%。
双方通过编译优化和自动调优，提升了FP8和Sparse Attention算子的性能，降低延迟并提高吞吐量。
未来将继续推进DeepSeek-V4-Pro的适配工作，进一步提升国产大模型生态的算力基础。

❓

延伸问答

摩尔线程与智源FlagOS的合作主要实现了什么？

摩尔线程与智源FlagOS合作在MTT S5000 GPU上快速适配了DeepSeek-V4-Flash模型。

DeepSeek-V4-Flash模型的参数量和上下文支持是多少？

DeepSeek-V4-Flash模型的参数量达到284B，支持百万token上下文。

MTT S5000 GPU的FP8精度有什么优势？

MTT S5000原生支持FP8精度，能够将数据位宽减半，显存带宽压力降低50%，计算吞吐量翻倍。

如何提升DeepSeek-V4模型的FP8和Sparse Attention算子性能？

通过编译优化和自动调优，提升FP8和Sparse Attention算子的性能，降低延迟并提高吞吐量。

DeepSeek-V4-Pro模型的适配工作进展如何？

摩尔线程与FlagOS社区正在推进DeepSeek-V4-Pro模型在MTT S5000上的迁移适配工作。

FlagOS-Tune的功能是什么？

FlagOS-Tune能够自动搜索最优的Triton内核配置，提升算子性能。

🏷️

继续阅读

给 WordPress 7.0 的 AI 连接功能加上 DeepSeek 支持
WordPress 7.0 更新了 AI 连接功能，但仅支持国外提供商。为此，开发者推出了 WPJAM AI 插件，支持国内的 DeepSeek 等模型。...
DeepSeek首轮500亿元融资细节曝光：估值4000亿，腾讯、宁德时代都来了
国内AI企业DeepSeek即将完成首轮融资，计划募资约500亿元，投资方包括腾讯和宁德时代。融资后估值预计达3500亿至4000亿元。创始人梁文锋将投入...
早报｜微软发布Windows「梦中神机」/腾讯云DeepSeek-V4最高降价97.5%/徕卡相机或被中国资本收购
微软在Build 2026大会上发布了七款自研AI模型，涵盖推理、代码、图像和语音等领域，并推出了强大算力的开发者设备“梦中神机”。OpenAI扩展Cod...
外壳的铸造 — v5的诞生
文章讨论了v5的诞生过程，描述了旧服务器的迁移与更新。团队通过483次提交逐步改进系统，保持了连续性。对比旧版与新版，揭示了数据结构的变化和命名的困惑，强...
通过玩“战舰”教人工智能代理提出更好的问题
麻省理工学院的研究显示，小型人工智能模型在经典游戏“战舰”中表现优于大型模型，成本仅为其1%。研究指出，通过改进模型的提问能力和使用蒙特卡罗推理策略，可以...
托德·马乔弗因在音乐和技术领域的贡献而获得乔治·皮博迪奖
托德·马乔弗将获得乔治·皮博迪奖，以表彰他在美国音乐和舞蹈领域的杰出贡献。他是麻省理工学院媒体实验室的教授，以其在参与性歌剧、人工智能和创意技术方面的开创性工作而闻名。