DigitalOcean的Agentic推理云如何通过NVIDIA GPU为Workato实现67%的推理成本降低

DigitalOcean的Agentic推理云如何通过NVIDIA GPU为Workato实现67%的推理成本降低

💡 原文英文,约2300词,阅读约需9分钟。
📝

内容提要

Workato的AI研究实验室与DigitalOcean合作,利用NVIDIA Dynamo和vLLM优化推理性能。通过引入KV感知路由,显著提高了GPU的吞吐量和响应速度,分别提升67%和降低79%的延迟,从而降低了推理成本和所需GPU数量。

🎯

关键要点

  • Workato的AI研究实验室与DigitalOcean合作,优化推理性能。

  • 通过引入KV感知路由,GPU的吞吐量提高了67%,延迟降低了79%。

  • NVIDIA H200 GPU被选中以支持100K-token上下文长度,单个GPU能够容纳整个工作负载。

  • KV感知路由技术减少了冗余计算,提高了推理效率。

  • NVIDIA Dynamo作为低延迟的模块化推理框架,优化了GPU的使用效率。

  • 通过协调路由和缓存管理,Workato显著降低了推理成本和所需GPU数量。

延伸问答

DigitalOcean的Agentic推理云如何帮助Workato降低推理成本?

通过引入KV感知路由,DigitalOcean的Agentic推理云使Workato的推理吞吐量提高了67%,延迟降低了79%,从而显著降低了推理成本和所需GPU数量。

NVIDIA Dynamo在推理性能优化中起到了什么作用?

NVIDIA Dynamo作为低延迟的模块化推理框架,通过KV感知路由技术减少冗余计算,提高了推理效率。

KV感知路由技术是如何工作的?

KV感知路由技术利用输入前缀的共享性,将相似的请求路由到同一GPU,从而避免重复计算,提升推理效率。

使用NVIDIA H200 GPU的优势是什么?

NVIDIA H200 GPU具有141GB的HBM3e内存容量,能够支持100K-token的上下文长度,适合处理大型工作负载。

Workato在推理性能测试中取得了哪些具体成果?

Workato在推理性能测试中实现了67%的GPU吞吐量提升,79%的延迟降低,以及33%的硬件成本降低。

如何通过架构优化提高推理效率?

通过协调路由、缓存管理和GPU拓扑,结合Kubernetes的调度,能够显著提高推理效率,减少冗余计算。

➡️

继续阅读