数字海洋的代理推理云如何通过NVIDIA GPU实现Workato推理成本降低67%

The DigitalOcean Blog ·

数字海洋的代理推理云如何通过NVIDIA GPU实现Workato推理成本降低67%

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

在预填充阶段，模型处理输入提示并为每个标记建立内部记忆，计算量大，且随着输入序列长度平方增长。对于长上下文任务，预填充可能占总推理成本的大部分，因为模型需要计算每个标记与其他标记的自注意力分数。

🎯

关键要点

预填充阶段，模型处理整个输入提示并为每个标记建立内部记忆。
该阶段计算量大，随着输入序列长度平方增长。
对于长上下文任务，预填充可能占总推理成本的大部分。
模型需要计算每个标记与其他标记的自注意力分数。
例如，1000个标记的提示需要进行大约1000 x 1000次注意力操作。
100,000个标记的提示需要进行10亿次操作。
100K标记的预填充需要大量的浮点运算，可能导致较低的GPU吞吐量。

🏷️

继续阅读

阿里开源4款Qwen3.5小尺寸模型，马斯克点赞：惊人的智能水平
阿里巴巴开源了4款适合移动设备和低延时场景的Qwen3.5小尺寸模型，性能强劲，马斯克称其“智能密度令人印象深刻”。千问系列已开源超过400款模型，受到开发者欢迎。
我们从一个持续22天的存储错误中学到了什么（以及我们是如何修复它的）
我们的服务使用Go语言编写，读取操作依赖于当前请求的上下文。如果请求者取消上下文，例如只部分读取内容，将导致远程读取操作被取消，从而引发错误并影响其他同时...
华为在MWC26期间主办第四届数字经济发展论坛
在MWC26巴塞罗那，华为举办数字经济发展论坛，探讨AI时代的新机遇。汪涛强调政策、基础设施和人才的重要性，并提出三项建议。与会者讨论数字基础设施建设，认...
英伟达放弃GPU上LPU：新推理芯片被曝Groq即买即用，OpenAI第一个吃螃蟹
英伟达将在GTC大会上推出新推理芯片，首位客户为OpenAI。该芯片基于Groq团队的LPU架构，旨在提升推理效率，以应对市场需求变化。推理市场正在重塑，...
iGRPO：让 AI 像人类一样自我反思，数学推理能力再升级！
本文提出了iGRPO（迭代组相对策略优化），通过自我反馈提升AI的数学推理能力。该方法包括探索与选择、条件化改进两个阶段，显著提升多个基准测试的表现，且无...
三星的数字家居钥匙让你可以用手机作为钥匙
三星计划于2025年推出数字家居钥匙功能，但因CSA的Aliro标准在今年2月发布，该功能未能如期实现。新标准采用近场通信（NFC）和超宽带（UWB）技术...

数字海洋的代理推理云如何通过NVIDIA GPU实现Workato推理成本降低67%

内容提要

关键要点

标签

继续阅读