曦望发布推理GPU S3:All-in推理的国产GPU,开始算单位Token成本

💡 原文中文,约2100字,阅读约需5分钟。
📝

内容提要

曦望发布了新一代推理GPU芯片启望S3,专注于推理效率和成本,显存容量提升4倍,推理成本下降约90%。同时推出寰望SC3超节点方案,优化推理能力和系统稳定性,推动推理云平台发展,强调降低推理成本的重要性。

🎯

关键要点

  • 曦望发布新一代推理GPU芯片启望S3,专注推理效率和成本。

  • 启望S3显存容量提升4倍,推理成本下降约90%。

  • 曦望选择不追求峰值训练性能,而是专注于推理效率与单位成本。

  • 启望S3支持多精度灵活切换,最大化低精度推理效率。

  • S3采用LPDDR6显存方案,缓解显存瓶颈。

  • 推出寰望SC3超节点方案,提升推理系统稳定性与利用率。

  • 寰望SC3支持全液冷设计,降低系统交付成本。

  • 曦望构建与CUDA兼容的软件体系,降低推理应用迁移门槛。

  • 曦望与生态伙伴探索推理云平台,整合算力为统一推理算力池。

  • 推理时代的核心在于持续降低推理成本,掌握AI产业的成本曲线。

延伸问答

启望S3的主要特点是什么?

启望S3专注于推理效率和成本,显存容量提升4倍,推理成本下降约90%。

曦望为何不追求峰值训练性能?

曦望认为推理是长期、持续的算力交付过程,重心应转向单位Token的真实成本。

启望S3如何提升推理效率?

启望S3支持多精度灵活切换,最大化低精度推理效率,适应当前模型需求。

寰望SC3超节点方案的优势是什么?

寰望SC3支持高效的系统利用率与稳定性,适配复杂推理场景,并降低系统交付成本。

曦望的推理云平台有什么特点?

推理云平台通过GPU池化与弹性调度,提供按需调用的大模型推理能力,简化企业使用。

曦望如何降低推理成本?

曦望通过优化硬件设计和推理云平台,持续降低推理成本,掌握AI产业的成本曲线。

➡️

继续阅读