💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
浪潮信息的元脑R1推理服务器深度适配开源框架SGLang,支持超1000路用户并发访问DeepSeek R1 671B模型,解码速度达33 tokens/s,显存带宽为4.8TB/s。
🎯
关键要点
- 浪潮信息的元脑R1推理服务器深度适配开源框架SGLang最新版本。
- 支持超过1000路用户并发访问DeepSeek R1 671B模型。
- DeepSeek R1模型参数量达6710亿,采用MLA注意力机制和混合专家架构。
- 元脑R1推理服务器NF5688G7搭载FP8计算引擎,部署速度快且无精度损失。
- 显存带宽高达4.8TB/s,GPU P2P带宽达900GB/s,保障最佳通讯性能。
- 在元脑R1推理服务器上运行DeepSeek 671B R1模型,单用户解码最高33 tokens/s。
➡️