量子位 ·

曦望发布推理GPU S3：All-in推理的国产GPU，开始算单位Token成本

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

曦望发布了新一代推理GPU芯片启望S3，专注于推理效率和成本，显存容量提升4倍，推理成本下降约90%。同时推出寰望SC3超节点方案，优化推理能力和系统稳定性，推动推理云平台发展，强调降低推理成本的重要性。

🎯

❓

启望S3专注于推理效率和成本，显存容量提升4倍，推理成本下降约90%。

曦望认为推理是长期、持续的算力交付过程，重心应转向单位Token的真实成本。

启望S3支持多精度灵活切换，最大化低精度推理效率，适应当前模型需求。

寰望SC3支持高效的系统利用率与稳定性，适配复杂推理场景，并降低系统交付成本。

推理云平台通过GPU池化与弹性调度，提供按需调用的大模型推理能力，简化企业使用。

曦望通过优化硬件设计和推理云平台，持续降低推理成本，掌握AI产业的成本曲线。

🏷️

Google LiteRT-LM Speeds Up Local Inference Up to 2.2x With Gemma 4 Multi-Token Prediction
LiteRT-LM brings native support for Gemma 4 Multi-Token Prediction (MTP) draf...
教你薅token（二）：构建agent无关的skills管理工作流
本文介绍了pks（个人技能管理器），一个用纯bash编写的工具，旨在管理AI工作流文档。pks允许用户集中管理特定项目的技能，如编码规范和API设计，并按...
Why Zig Isn’t 1.0 (Yet)
Most programming languages follow a familiar trajectory: early experimental r...
Why isn’t the Trump phone made in the USA?
Where's the Trump phone? We're going to keep talking about it every w...
This chunky little tablet got my kid to clean up his toys
Never underestimate the power that a cheap tablet holds over a kid under six....
Your AI bill is out of control. Cloudflare can fix it now.
AI Gateway now features real-time spend limits to prevent runaway token bills...