量子位 ·

推理成本打到1元/每百万token，浪潮信息撬动Agent规模化的“最后一公里”

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

浪潮信息推出元脑HC1000超扩展AI服务器，将推理成本降低至每百万token 1元，以支持AI产业化。刘军表示，未来token成本需显著降低，以应对快速增长的需求，推动AI普惠落地。

🎯

🔎

推理成本的降低是AI产业化的关键因素。当前，推理成本已降至1元/每百万token，这一突破将推动智能体的广泛应用。然而，随着token需求的指数级增长，企业必须继续降低成本，以保持竞争力。

现阶段，推理负载与训练负载的差异导致算力利用率低下，成为成本高企的根源。为了降低token成本，企业需要重构计算架构，优化资源配置，提升单位算力的产出效率。这是实现AI普惠落地的必经之路。

尽管当前的推理成本已实现突破，但刘军指出，未来仍需在此基础上实现数量级的下降。随着AI应用场景的复杂化，企业面临着更高的成本压力，只有通过技术创新和架构优化，才能抓住未来的机遇。

❓

元脑HC1000基于全新设计的DirectCom极速架构，推理成本首次降至1元/每百万token，支持高效聚合AI芯片，提升推理吞吐量。

刘军认为未来token成本必须显著降低，以应对需求的指数级增长，推动AI的普惠落地。

当前AI产业的主要挑战是推理阶段算力利用率低，存储墙和网络通信瓶颈导致成本高企。

推理成本的降低将推动AI应用于更复杂的场景，导致token需求呈指数级增长。

杰文斯悖论指技术进步提高效率后，资源消耗反而激增。在token经济中，若成本下降速度跟不上消耗增长，企业将面临更高费用。

元脑HC1000通过重构系统架构，支持细粒度计算策略，提升算力利用率，解决传统架构的协议转换和带宽争抢问题。

🏷️