量子位 ·

想跑千亿大模型？算力厂商放大招！CPU通用服务器成为新选择

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

浪潮信息成功在通用服务器上运行了千亿参数的大模型推理，只用了4颗CPU，无需GPU或其他AI加速卡。通用服务器的成本优势显著，且内存容量大，适合部署大模型。通过量化技术和并行计算环境的优化，解决了CPU与内存之间的通信需求。CPU的AI算力性能也在提升，能满足大模型推理的需求。这种通用算力方案将成为企业拥有AI的新起点。

🎯

关键要点

浪潮信息在通用服务器上成功运行千亿参数大模型推理，仅使用4颗CPU，无需GPU或其他AI加速卡。
通用服务器的成本优势显著，适合传统行业部署AI，避免硬件更换。
千亿参数大模型需要200~300GB显存和每秒2TB以上的通信带宽，软件优化也至关重要。
浪潮信息的NF8260G7服务器采用英特尔6448H处理器，支持主流AI框架，成为通用AI算力的新标杆。
通过去中心化的UPI总线互连，减少通信延迟，提高数据传输速率。
采用NF4量化技术和嵌套量化，显著降低内存占用，提高模型推理效率。
通用服务器的内存容量大于GPU，适合千亿参数大模型的部署，且成本低于AI服务器。
CPU的AI算力性能提升，能够满足大模型推理需求，通用算力正在向智能算力演变。
浪潮信息的方案填补了行业空白，将成为企业拥有AI的新起点，推动AI技术在各行业的应用。

🏷️

继续阅读

高通的「共享内存架构」，想让 Win 本追上 MacBook Pro
华硕发布灵耀 16 Air 骁龙版，搭载高通骁龙 X2 Elite Extreme 平台，内存封装在 SoC 中，提供228 GB/s的内存带宽。机重1....
忆联以15.5%的市场份额位居中国企业级SSD市场国产厂商第一
忆联在中国企业级SSD市场以15.5%的市场份额位居国产厂商第一，连续四年保持冠军。其在AI和数据中心存储领域的技术实力提升，推动市场份额增长，并在PCI...
银河通用LDA定义全域数据利用范式，跨本体世界动作大模型开启具身GPT-2时刻
银河通用推出的LDA-1B模型在具身智能领域实现了数据的统一利用，突破了传统模型的局限。该模型有效整合多种数据源，快速适应不同机器人，降低数据获取成本，推...
Christophe Pettus: Parallel Autovacuum: It’s Not About The CPU
PostgreSQL 19 ships with parallel autovacuum. The new GUC autovacuum_max_para...
SAS将其分析引擎开放给Claude、Copilot及任何AI代理，使用Viya MCP服务器
SAS公司在AI时代专注于提供可信的分析和决策软件，强调数据治理的重要性。新推出的Viya MCP服务器允许外部AI代理调用其模型，同时确保数据治理。SA...
Open Generative AI免费开源无审查AI工作室 | 替代Higgsfield和Krea的最佳选择
Open Generative AI是一个完全免费、开源的AI图像和视频生成平台，提供200多个模型，无需订阅，用户创作成果归自己所有。该平台不进行内容审...

想跑千亿大模型？算力厂商放大招！CPU通用服务器成为新选择

内容提要

关键要点

标签

继续阅读