推理成本打到1元/每百万token,浪潮信息撬动Agent规模化的“最后一公里”

💡 原文中文,约3300字,阅读约需8分钟。
📝

内容提要

浪潮信息推出元脑HC1000超扩展AI服务器,将推理成本降低至每百万token 1元,以支持AI产业化。刘军表示,未来token成本需显著降低,以应对快速增长的需求,推动AI普惠落地。

🎯

关键要点

  • 浪潮信息推出元脑HC1000超扩展AI服务器,推理成本降至1元/每百万token。

  • 刘军强调,未来token成本需显著降低,以应对需求增长,推动AI普惠落地。

  • 当前AI产业正处于智能体规模化落地的关键阶段,降本是企业盈利的核心。

  • token成本的降低将推动AI应用于更复杂的场景,导致token需求呈指数级增长。

  • 现阶段token成本80%以上来自算力支出,推理负载与训练负载的不同是主要瓶颈。

  • 推理阶段算力利用率低,导致算力闲置,成为成本高企的根源。

  • 存储墙和网络通信的瓶颈也在推理场景下被放大,增加了成本。

  • 元脑HC1000基于全新设计的DirectCom极速架构,支持高效聚合AI芯片,推理成本首次突破1元/每百万token。

  • 刘军指出,降低token成本需重构系统架构,聚焦核心目标。

  • 未来AI产业需从规模导向转为效率导向,推动计算架构的根本性革新。

延伸问答

浪潮信息的元脑HC1000超扩展AI服务器有什么创新之处?

元脑HC1000采用全新设计的DirectCom极速架构,支持高效聚合AI芯片,推理成本首次降至1元/每百万token。

刘军对未来token成本的看法是什么?

刘军强调,未来token成本必须显著降低,以应对需求的快速增长,推动AI的普惠落地。

当前AI产业面临哪些成本挑战?

当前AI产业的token成本80%以上来自算力支出,推理负载与训练负载的不同是主要瓶颈,导致算力闲置和高成本。

推理阶段的算力利用率为何低?

推理阶段的算力利用率低是因为硬件必须加载全部模型参数,却只计算一个token的输出,导致算力闲置。

如何看待token成本与AI应用的关系?

token成本直接决定了智能体的盈利能力,成本的降低将推动AI应用于更复杂的场景。

未来AI产业的发展方向是什么?

未来AI产业需从规模导向转为效率导向,推动计算架构的根本性革新,实现软硬件深度优化。

➡️

继续阅读