The DigitalOcean Blog ·

推理成本：前缀感知路由如何消除大规模LLM的隐性费用

💡 原文英文，约3200词，阅读约需12分钟。

📝

内容提要

推理需求快速增长，预计到2030年将占全球AI计算的主要部分。许多团队未能有效利用计算资源，导致重复计算浪费。DigitalOcean通过前缀感知路由和缓存技术优化推理性能，提高缓存命中率，降低计算成本，并将在Serverless Inference中推广，帮助用户节省计算资源。

🎯

🔎

推理需求的快速增长使得计算资源的有效利用变得至关重要。许多团队未能识别出重复计算的隐性成本，导致不必要的资源浪费。了解这一点可以帮助团队在推理过程中优化资源配置，降低整体计算开支。

DigitalOcean的前缀感知路由技术显著提高了缓存命中率，从而减少了计算成本。通过智能路由，系统能够更有效地利用已有的计算结果，避免重复计算。这一技术在处理共享前缀的工作负载时尤为有效，能够为用户节省大量的计算资源。

随着推理需求的不断上升，优化推理性能将成为各大云服务平台的竞争焦点。DigitalOcean与Inferact的合作不仅提升了推理性能，还为用户提供了更高效的计算解决方案。未来，随着技术的不断进步，推理的成本和效率将进一步改善。

❓

推理需求增长主要是因为AI计算的广泛应用，预计到2030年将占全球AI计算的主要部分。

DigitalOcean通过前缀感知路由和缓存技术来优化推理性能，提高缓存命中率并降低计算成本。

前缀感知路由可以显著提高缓存命中率，从约25%提升到75%以上，减少重复计算，降低计算成本。

推理计算成本的主要组成部分是重复计算，推理现在大约占总AI计算成本的70%，其中大部分是可避免的。

通过前缀缓存，系统可以重用已经计算的状态，避免重复的预填充计算，从而显著降低每个请求的有效计算成本。

DigitalOcean与Inferact的合作旨在通过优化引擎和基础设施层来提升推理性能，提供更高效的推理服务。

🏷️