优化用于推理的DigitalOcean Gradient™ AI GPU Droplets：在降低成本的同时提高吞吐量

The DigitalOcean Blog ·

优化用于推理的DigitalOcean Gradient™ AI GPU Droplets：在降低成本的同时提高吞吐量

💡 原文英文，约2500词，阅读约需10分钟。

📝

内容提要

为了实现生产级LLM推理，我们优化了整个服务堆栈，构建了高效的推理镜像。测试显示，使用2个H100 GPU时，吞吐量提高了143%，每百万个token的成本降低了75%。这种优化使得在更少的GPU上实现高效推理成为可能。

🎯

关键要点

生产级LLM推理需要对整个服务堆栈进行深度优化。
使用2个H100 GPU时，吞吐量提高了143%，每百万个token的成本降低了75%。
构建了推理优化镜像，集成了多种优化技术。
推理过程分为预填充阶段和解码阶段，分别针对计算和内存带宽瓶颈进行优化。
推测解码通过并行生成多个候选token来提高吞吐量。
FP8量化将模型内存占用减半，并加速计算。
FlashAttention-3和分页注意力优化了内存利用率和计算效率。
并发优化允许在同一硬件上并行运行多个模型实例，提高了硬件利用率。
提示缓存技术减少了重复计算，提高了响应速度和成本效率。
优化镜像在不同并发级别下均表现出显著的吞吐量和成本优势。
FP8量化和推测解码使得在2个GPU上运行70B模型成为可能。
优化镜像支持多种GPU架构，降低了生产推理的门槛。
优化不仅依赖于单一技术，而是多种技术的复合效应。
预优化镜像使得团队能够快速部署高性能推理，而无需深入的GPU系统工程知识。

❓

延伸问答

如何优化LLM推理以降低成本和提高吞吐量？

通过构建推理优化镜像，集成多种优化技术，如FP8量化、FlashAttention-3和并发优化，显著提高吞吐量并降低成本。

使用2个H100 GPU时，吞吐量和成本的变化如何？

使用2个H100 GPU时，吞吐量提高了143%，每百万个token的成本降低了75%。

推理过程的预填充阶段和解码阶段有什么不同？

预填充阶段计算密集，主要处理输入提示；解码阶段则是内存带宽限制，逐个生成token。

什么是提示缓存技术，它如何提高推理效率？

提示缓存技术通过存储和重用已计算的KV缓存条目，减少重复计算，提高响应速度和成本效率。

FP8量化对模型性能有什么影响？

FP8量化将模型内存占用减半，并加速计算，使得在更少的GPU上运行更高效。

并发优化如何提高硬件利用率？

并发优化允许在同一硬件上并行运行多个模型实例，从而提高了硬件的利用率。

🏷️

继续阅读

大语言模型推理三难问题：吞吐量、延迟与成本
本文探讨了大语言模型（LLM）推理中的成本、延迟和吞吐量之间的权衡，强调了硬件选择、模型架构和量化等因素对优化的影响。理解成本的多维特性和优化策略对于有效...
从GPU到Token：AI基础设施竞争逻辑重构
商汤大装置在全球AI工厂市场中受到Omdia高度评价，开创了“智能精炼”范式，推动AI基础设施的结构性变革。其AI数字工厂架构分为四层，旨在实现智能生产与...
如何在GCP上使用HashiCorp Packer创建GPU优化的机器镜像
本文介绍了如何使用Packer构建可重用的GPU优化机器镜像，预装NVIDIA驱动、CUDA工具包和DCGM。步骤包括安装Packer、设置项目目录、定义...
未来6-12月AI发展的几个确定性趋势
未来6-12个月，AI发展将呈现几个趋势：大模型趋于稳定，AI应用将爆发，企业工作流嵌入加速，token使用量激增。随着AI技术的成熟，企业将更有效地利用...
教AI模型说“我不确定”
麻省理工学院的研究人员开发了一种新训练方法“带校准奖励的强化学习”（RLCR），该方法提高了AI模型的信心估计准确性，减少了90%的校准误差，同时保持或提...
为什么埃森哲和WaveMaker押注于自主AI以填补30亿美元的软件缺口
Accenture与WaveMaker达成战略合作，旨在帮助年收入不超过30亿美元的中型企业现代化应用。WaveMaker的2-pass架构生成安全、可扩...