摩尔线程与智源众智FlagOS社区合作,在MTT S5000 GPU上快速适配DeepSeek-V4-Flash模型。该模型采用混合专家架构,参数量达到284B,支持百万token上下文。MTT S5000原生支持FP8精度,提升计算效率。双方通过编译优化和自动调优,提升了FP8和Sparse Attention算子的性能,降低延迟并提高吞吐量。未来将继续推进DeepSeek-V4-Pro的适配工作。
完成下面两步后,将自动完成登录并继续当前操作。