NVIDIA Blog ·

NVIDIA的推理软件栈如何驱动最低令牌成本

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

NVIDIA的推理软件栈通过与GPU、CPU和开源生态系统的协同，显著降低了每个令牌的成本。使用TensorRT-LLM和Dynamo框架，企业如Baseten和Cognition实现了高达50%的令牌输出提升，优化了生产操作并降低了成本。开源生态系统使新模型如DeepSeek V4能够快速部署并进一步降低成本。

🎯

关键要点

NVIDIA的推理软件栈通过与GPU、CPU和开源生态系统的协同，显著降低了每个令牌的成本。
使用TensorRT-LLM和Dynamo框架，企业如Baseten和Cognition实现了高达50%的令牌输出提升。
NVIDIA的推理软件栈在DeepSeek V4模型上已将令牌成本降低了多达5倍。
开源生态系统使新模型如DeepSeek V4能够快速部署并进一步降低成本。
NVIDIA的推理软件栈通过连接生产操作、应用加速和基础设施访问三个层面，提升系统性能。

🔎

延伸解读

推理软件栈的优势

NVIDIA的推理软件栈通过与GPU、CPU和开源生态系统的紧密结合，显著提升了每个令牌的处理效率。这种协同作用不仅降低了成本，还提高了生产操作的灵活性，使企业能够更快地适应市场需求。

开源生态系统的影响

开源生态系统为NVIDIA的推理软件栈提供了强大的支持，使得新模型如DeepSeek V4能够快速部署。这种快速适应能力使得企业在技术更新中保持竞争力，同时降低了开发和运营成本。

成本与性能的平衡

随着AI技术的不断发展，企业在选择基础设施时越来越关注每个令牌的成本。NVIDIA的推理软件栈通过优化系统性能，帮助企业在降低成本的同时，保持高效的处理能力，这是未来AI生产的重要考量。

❓

延伸问答

NVIDIA的推理软件栈如何降低令牌成本？

NVIDIA的推理软件栈通过与GPU、CPU和开源生态系统的协同，显著降低了每个令牌的成本，最高可降低至之前的五分之一。

哪些企业使用NVIDIA的推理软件栈？

企业如Baseten和Cognition正在使用NVIDIA的推理软件栈来提升令牌输出和优化生产操作。

TensorRT-LLM和Dynamo框架的作用是什么？

TensorRT-LLM和Dynamo框架帮助企业实现高达50%的令牌输出提升，并优化推理工作负载。

开源生态系统如何影响NVIDIA的推理软件栈？

开源生态系统使新模型如DeepSeek V4能够快速部署，并进一步降低成本，增强了NVIDIA推理软件栈的优势。

NVIDIA推理软件栈的性能提升机制是什么？

NVIDIA推理软件栈通过连接生产操作、应用加速和基础设施访问三个层面，提升系统性能并降低令牌成本。

DeepSeek V4模型在NVIDIA平台上的表现如何？

在NVIDIA Blackwell平台上，DeepSeek V4模型的令牌成本在一个月内降低了多达5倍。

🏷️