量子位 ·

推理成本打到1元/每百万token，浪潮信息撬动Agent规模化的“最后一公里”

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

浪潮信息推出元脑HC1000超扩展AI服务器，将推理成本降低至每百万token 1元，以支持AI产业化。刘军表示，未来token成本需显著降低，以应对快速增长的需求，推动AI普惠落地。

🎯

❓

元脑HC1000采用全新设计的DirectCom极速架构，支持高效聚合AI芯片，推理成本首次降至1元/每百万token。

刘军强调，未来token成本必须显著降低，以应对需求的快速增长，推动AI的普惠落地。

当前AI产业的token成本80%以上来自算力支出，推理负载与训练负载的不同是主要瓶颈，导致算力闲置和高成本。

推理阶段的算力利用率低是因为硬件必须加载全部模型参数，却只计算一个token的输出，导致算力闲置。

token成本直接决定了智能体的盈利能力，成本的降低将推动AI应用于更复杂的场景。

未来AI产业需从规模导向转为效率导向，推动计算架构的根本性革新，实现软硬件深度优化。

🏷️

边缘优先：Akamai瞄准集中式与分散式AI推理之间的最佳结合点
Akamai与云原生计算基金会合作推出Spin项目，旨在为开发者提供一个快速构建和部署无服务器应用的框架，支持将应用迅速部署到Akamai云上。
Agent 的家：如何在 AI 时代搭建硬件基座
本文探讨了AI时代硬件的重要性，分享了个人的硬件架构与使用经验。作者分析了硬件市场趋势，指出AI需求推动价格上涨，强调数据安全与备份的重要性，并建议在选择...
Meta自适应排名模型：弯曲推理扩展曲线以服务于广告的LLM规模模型
Meta通过自适应排名模型提升广告推荐系统效率，解决了模型复杂性与系统效率的矛盾，实现低延迟和高效能，显著提高广告转化率和点击率。该模型通过请求导向优化与...
使用Veo 3.1 Lite构建，我们最具成本效益的视频生成模型
谷歌推出Veo 3.1 Lite视频模型，成本低于Veo 3.1 Fast，支持文本和图像转视频，提供灵活的画幅和分辨率。4月7日将降低Veo 3.1 F...
里斯本的春天
每年 300 天阳光的里斯本，在 2025 到 2026 年的冬天迎来了破纪录的风暴季。从十一月到二月，风暴名字排过了半个字母表，草木被压得缓不过神来。当...
Qt Creator 19 - CMake Update
Here are the new CMake changes in Qt Creator 19: