想跑千亿大模型?算力厂商放大招!CPU通用服务器成为新选择
内容提要
浪潮信息成功在通用服务器上运行了千亿参数的大模型推理,只用了4颗CPU,无需GPU或其他AI加速卡。通用服务器的成本优势显著,且内存容量大,适合部署大模型。通过量化技术和并行计算环境的优化,解决了CPU与内存之间的通信需求。CPU的AI算力性能也在提升,能满足大模型推理的需求。这种通用算力方案将成为企业拥有AI的新起点。
关键要点
-
浪潮信息在通用服务器上成功运行千亿参数大模型推理,仅使用4颗CPU,无需GPU或其他AI加速卡。
-
通用服务器的成本优势显著,适合传统行业部署AI,避免硬件更换。
-
千亿参数大模型需要200~300GB显存和每秒2TB以上的通信带宽,软件优化也至关重要。
-
浪潮信息的NF8260G7服务器采用英特尔6448H处理器,支持主流AI框架,成为通用AI算力的新标杆。
-
通过去中心化的UPI总线互连,减少通信延迟,提高数据传输速率。
-
采用NF4量化技术和嵌套量化,显著降低内存占用,提高模型推理效率。
-
通用服务器的内存容量大于GPU,适合千亿参数大模型的部署,且成本低于AI服务器。
-
CPU的AI算力性能提升,能够满足大模型推理需求,通用算力正在向智能算力演变。
-
浪潮信息的方案填补了行业空白,将成为企业拥有AI的新起点,推动AI技术在各行业的应用。
延伸问答
浪潮信息是如何在通用服务器上运行千亿参数大模型的?
浪潮信息通过使用4颗英特尔6448H CPU,在通用服务器NF8260G7上成功运行千亿参数大模型,避免了使用GPU或其他AI加速卡。
通用服务器相比于AI服务器有哪些成本优势?
通用服务器的成本可降低80%,不仅包括设备购置,还能与现有系统更好融合,避免硬件更换。
千亿参数大模型对内存和带宽的要求是什么?
千亿参数大模型需要200~300GB的显存和每秒2TB以上的通信带宽,以满足高效运行的需求。
NF4量化技术在大模型推理中有什么作用?
NF4量化技术通过优化数据存储,显著降低内存占用,提高模型推理效率,适合大模型的权重分布。
为什么在有AI加速芯片的情况下仍然使用CPU进行推理?
使用CPU推理可以降低部署和推理成本,并且通用服务器的内存容量大于GPU,适合千亿参数大模型的需求。
浪潮信息的通用服务器方案对行业有什么影响?
该方案填补了行业空白,推动AI技术在各行业的应用,成为企业拥有AI的新起点。