曦望发布推理GPU S3:All-in推理的国产GPU,开始算单位Token成本
💡
原文中文,约2100字,阅读约需5分钟。
📝
内容提要
曦望发布了新一代推理GPU芯片启望S3,专注于推理效率和成本,显存容量提升4倍,推理成本下降约90%。同时推出寰望SC3超节点方案,优化推理能力和系统稳定性,推动推理云平台发展,强调降低推理成本的重要性。
🎯
关键要点
-
曦望发布新一代推理GPU芯片启望S3,专注推理效率和成本。
-
启望S3显存容量提升4倍,推理成本下降约90%。
-
曦望选择不追求峰值训练性能,而是专注于推理效率与单位成本。
-
启望S3支持多精度灵活切换,最大化低精度推理效率。
-
S3采用LPDDR6显存方案,缓解显存瓶颈。
-
推出寰望SC3超节点方案,提升推理系统稳定性与利用率。
-
寰望SC3支持全液冷设计,降低系统交付成本。
-
曦望构建与CUDA兼容的软件体系,降低推理应用迁移门槛。
-
曦望与生态伙伴探索推理云平台,整合算力为统一推理算力池。
-
推理时代的核心在于持续降低推理成本,掌握AI产业的成本曲线。
❓
延伸问答
启望S3的主要特点是什么?
启望S3专注于推理效率和成本,显存容量提升4倍,推理成本下降约90%。
曦望为何不追求峰值训练性能?
曦望认为推理是长期、持续的算力交付过程,重心应转向单位Token的真实成本。
启望S3如何提升推理效率?
启望S3支持多精度灵活切换,最大化低精度推理效率,适应当前模型需求。
寰望SC3超节点方案的优势是什么?
寰望SC3支持高效的系统利用率与稳定性,适配复杂推理场景,并降低系统交付成本。
曦望的推理云平台有什么特点?
推理云平台通过GPU池化与弹性调度,提供按需调用的大模型推理能力,简化企业使用。
曦望如何降低推理成本?
曦望通过优化硬件设计和推理云平台,持续降低推理成本,掌握AI产业的成本曲线。
➡️