元脑SD200超节点AI服务器助力DeepSeek R1创造国内大模型最快token生成速度

元脑SD200超节点AI服务器助力DeepSeek R1创造国内大模型最快token生成速度

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

在2025人工智能计算大会上,浪潮信息发布了基于元脑SD200超节点AI服务器的DeepSeek R1大模型,token生成速度达到8.9毫秒,创下国内最快记录。该服务器支持64张本土AI芯片,优化了计算框架和通信库,实现低延迟推理,并通过预填充-解码分离软件提升计算性能。

🎯

关键要点

  • 浪潮信息在2025人工智能计算大会上发布了DeepSeek R1大模型,token生成速度为8.9毫秒,创下国内最快记录。
  • DeepSeek R1基于元脑SD200超节点AI服务器,支持64张本土AI芯片,优化了计算框架和通信库。
  • 元脑SD200服务器采用高带宽、低延时的开放总线协议,构建高性能交换单元,实现3D Mesh高性能互连。
  • 浪潮信息AI团队针对DeepSeek和Kimi模型进行了多方面的优化,以充分发挥元脑SD200的计算性能。
  • 支持预填充-解码分离推理,满足客户业务场景的SLO需求,提供更高性能。
  • 框架层面进行了并行方式、算子融合和多流水线等优化,以保证计算的低延迟。
  • 开发了预填充-解码分离软件,针对不同计算特性使用不同的并行计算策略和硬件配置。
➡️

继续阅读