领先的推理提供商通过NVIDIA Blackwell上的开源模型将AI成本降低至10倍

NVIDIA Blog ·

领先的推理提供商通过NVIDIA Blackwell上的开源模型将AI成本降低至10倍

💡 原文英文，约1300词，阅读约需5分钟。

📝

内容提要

Baseten、DeepInfra、Fireworks AI和Together AI通过NVIDIA Blackwell平台优化推理堆栈，显著降低各行业的每个token成本。MIT研究表明，基础设施和算法效率每年可将推理成本降低10倍。医疗、游戏和客户服务等领域的公司利用开源模型和NVIDIA Blackwell实现了成本节约和响应时间提升。

🎯

关键要点

Baseten、DeepInfra、Fireworks AI和Together AI通过NVIDIA Blackwell平台优化推理堆栈，降低各行业的每个token成本。
MIT研究表明，基础设施和算法效率每年可将推理成本降低10倍。
基础设施效率改善tokenomics，类似于高速印刷机的类比，投资AI基础设施可显著提高token输出。
Baseten、DeepInfra、Fireworks AI和Together AI利用NVIDIA Blackwell平台将每个token的成本降低至NVIDIA Hopper平台的10倍。
Sully.ai通过Baseten的Model API在医疗领域将推理成本降低90%，响应时间提高65%。
Latitude在游戏领域通过DeepInfra将每百万token的成本从20美分降低至5美分，实现4倍的成本改善。
Sentient Labs利用Fireworks AI的推理平台将AI成本降低25-50%。
Decagon通过Together AI的优化推理堆栈将客户服务的每次语音交互成本降低6倍，响应时间控制在400毫秒以内。
NVIDIA Blackwell的效率驱动了医疗、游戏和客户服务领域的显著成本节约。
NVIDIA Rubin平台将进一步整合六个新芯片，提供10倍的性能和10倍的token成本降低。

🏷️

继续阅读

在人工智能时代重新构建医疗科技
乔恩·韦特斯顿是8th Light的设计负责人，拥有超过25年的软件解决方案设计经验，专注于医疗、金融和消费品领域，擅长数字化转型指导。
NanoClaw可以将每个AI代理放入自己的Docker容器中，以应对OpenClaw的安全问题
机器人访问WhatsApp面临挑战。大多数OpenClaw用户使用WhatsApp，但没有商业账户无法创建新用户。WhatsApp连接依赖于Baileys...
OpenAI GPT-5.4发布，AI迎来就业报告，Anthropic在美国禁令后激增
Anthropic的新研究提出了“观察到的曝光”指标，结合理论LLM能力与实际使用数据。结果显示，AI尚未达到理论能力，实际任务覆盖率远低于可行范围。程序...
科尔维特ZR1X混合动力车以低廉的成本超越百万美元的跑车
新款C8 Corvette内饰配备三块高分辨率屏幕，左侧触摸屏用于启动控制和性能数据。碳纤维把手取代传统开关，提升乘客体验。性能牵引管理系统根据驾驶者技能...
AI 时代的人类处境：科技、宗教与生命意义的重构
在AI时代，科技与宗教的关系需重新审视。科技改变人与世界的互动，但无法消解人类对意义和死亡的思考。宗教应超越消费，关注真实修行。科学与宗教的关系可视为对立...
央视点赞千问APP，“AI办事”让人工智能走进日常生活
央视点赞千问APP，推动AI办事进入日常生活。该APP通过语音交互满足个性化需求，受到大众，尤其是老年群体的欢迎。春节期间，1.3亿人体验AI下单，显示中...

领先的推理提供商通过NVIDIA Blackwell上的开源模型将AI成本降低至10倍

内容提要

关键要点

标签

继续阅读