The DigitalOcean Blog ·

DigitalOcean的Agentic推理云如何通过NVIDIA GPU为Workato实现67%的推理成本降低

💡 原文英文，约2300词，阅读约需9分钟。

📝

内容提要

Workato的AI研究实验室与DigitalOcean合作，利用NVIDIA Dynamo和vLLM优化推理性能。通过引入KV感知路由，显著提高了GPU的吞吐量和响应速度，分别提升67%和降低79%的延迟，从而降低了推理成本和所需GPU数量。

🎯

❓

通过引入KV感知路由，DigitalOcean的Agentic推理云使Workato的推理吞吐量提高了67%，延迟降低了79%，从而显著降低了推理成本和所需GPU数量。

NVIDIA Dynamo作为低延迟的模块化推理框架，通过KV感知路由技术减少冗余计算，提高了推理效率。

KV感知路由技术利用输入前缀的共享性，将相似的请求路由到同一GPU，从而避免重复计算，提升推理效率。

NVIDIA H200 GPU具有141GB的HBM3e内存容量，能够支持100K-token的上下文长度，适合处理大型工作负载。

Workato在推理性能测试中实现了67%的GPU吞吐量提升，79%的延迟降低，以及33%的硬件成本降低。

通过协调路由、缓存管理和GPU拓扑，结合Kubernetes的调度，能够显著提高推理效率，减少冗余计算。

🏷️

驱动推理时代：深入了解DigitalOcean数据与学习层
构建AI原生应用需要同时处理结构化和非结构化数据。DigitalOcean推出了统一的数据与学习层，支持PostgreSQL和MySQL高级版，简化数据管...
Nvidia最新模型现已上线
After pre-announcing Nemotron 3 Ultra, a 550-billion-parameter open-weight mi...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
Preparing for agentic commerce: REWE’s AI transformation
The German retail and tourism group’s chief digital and technology officer sa...
字节Agent自主优化GPU内核：挑战英伟达CUDA护城河
字节跳动开发的AI CUDA Agent能够自主优化CUDA代码，其性能超越人类专家40%。该AI通过强化学习快速发现传统编译器无法识别的优化技巧，可能会...
人工智能成本危机终于有了监管机构——只是并不是那些造成危机的公司
Linux基金会宣布成立Tokenomics基金会，旨在为AI代币消费建立开放标准和最佳实践。该基金会将于6月在FinOps X正式启动，获得谷歌、微软等...