NVIDIA Blog ·

推理经济如何最大化AI价值

💡 原文英文，约1300词，阅读约需5分钟。

📝

内容提要

了解AI在生产中的成本有助于实现高质量和盈利。推理过程的计算挑战与模型训练不同，推理成本随着模型使用增加而上升。企业需优化资源以降低推理成本，同时提高速度和准确性。AI生态系统致力于降低推理成本和提升能效，企业应掌握关键术语，合理配置计算资源，以实现高效经济的AI解决方案。

🎯

关键要点

了解AI在生产中的成本有助于实现高质量和盈利。
推理过程的计算挑战与模型训练不同，推理成本随着模型使用增加而上升。
企业需优化资源以降低推理成本，同时提高速度和准确性。
AI生态系统致力于降低推理成本和提升能效。
企业应掌握关键术语，合理配置计算资源，以实现高效经济的AI解决方案。
Tokens是AI模型中的基本数据单位，通过tokenization过程生成。
Throughput是模型在特定时间内输出的数据量，通常以tokens每秒计量。
Latency是输入提示与模型响应之间的时间，较低的延迟意味着更快的响应。
IT领导者开始测量“goodput”，以更全面地评估性能，确保吞吐量、延迟和成本的协调。
能效是AI系统将电力转化为计算输出的有效性，表现为每瓦特的性能。
三大AI扩展法则是理解推理成本经济学的核心。
盈利的AI需要全面的解决方案，结合先进的硬件和优化的软件栈。
AI工厂集成高性能AI基础设施、高速网络和优化软件，以大规模生成智能。
AI工厂运行在高性能、低延迟的推理管理系统上，以最大化token收入生成。

❓

延伸问答

推理经济如何影响AI的盈利能力？

推理经济通过优化资源配置和降低推理成本，帮助企业实现高质量和盈利。

什么是推理过程，它与模型训练有什么不同？

推理过程是将数据输入模型以获取输出的过程，与模型训练的单次成本不同，推理成本会随着使用增加而上升。

企业如何降低AI推理成本？

企业可以通过优化资源配置、提高速度和准确性来降低推理成本。

什么是tokens，它们在AI模型中有什么作用？

Tokens是AI模型中的基本数据单位，通过tokenization过程生成，模型通过学习tokens之间的关系来进行推理。

AI推理的吞吐量和延迟分别是什么？

吞吐量是模型在特定时间内输出的数据量，延迟是输入提示与模型响应之间的时间，较低的延迟意味着更快的响应。

AI工厂如何支持高效的推理管理？

AI工厂集成高性能基础设施和优化软件，运行高性能、低延迟的推理管理系统，以最大化token收入生成。

🏷️

继续阅读

Stripe 发布 288 项新功能，构建 AI 时代的经济基础设施
Stripe在年度大会上发布了288项新产品，旨在支持AI企业发展和提升金融基础设施。新功能包括智能体钱包和Streaming Payments，帮助企业...
读：AI 辅助开发为什么让 E2E 测试更有价值
原文：[[https://dzone.com/articles/why-ai-assisted-development-is-raising-the-va...
Meta正在为其AI工具投放快速致富广告
Meta收购的AI公司Manus正在推广其工具，声称可以帮助用户轻松赚取收入。该公司通过支付内容创作者在社交媒体上宣传其产品，鼓励用户利用AI为本地企业建...
世界最差程序员变得主动：构建一个破解排行榜的AI
一位自称“世界最差程序员”的新手，通过AI工具学习编程，成功创建了一个连接公司知识库的代理，帮助他在内部排行榜上获得第一名。尽管编程仍然困难，但这个项目让...
LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调
本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。...
使用AI Max调整您的购物广告活动以适应现代搜索
谷歌推出了AI Max for Shopping，旨在帮助零售商提升购物广告策略。该工具利用商户中心的数据，用户可一键升级，保留现有的产品定位和出价灵活性...