ARTHURCHIAO'S BLOG ·

[译] 大模型推理的极限：理论分析、数学建模与 CPU/GPU 实测（2024）

💡 原文中文，约6100字，阅读约需15分钟。

📝

内容提要

本文分析了大模型推理的速度瓶颈，探讨了访存带宽与算力的关系。实测数据表明，推理速度受限于访存带宽，尤其在生成文本时，模型逐个处理token，导致并行性不足。以Mistral 7B为例，计算推理所需的最小时间，强调低精度量化可降低延迟。建议在设计推理系统时考虑访存带宽的影响，以优化性能。

🎯

❓

大模型推理的速度瓶颈主要是访存带宽，尤其在生成文本时，模型逐个处理token，导致并行性不足。

每生成一个token，Mistral 7B模型需要加载约14.2GB的数据。

低精度量化（如FP16、FP8）可以显著降低推理延迟，因此在设计推理系统时应考虑其影响。

GQA（Grouped Query Attention）可以显著减少KV-cache的大小和所需带宽，从而提高推理效率。

在多用户场景中，推理性能的关键指标仍然是访存带宽。

推理系统的性能评估应关注访存带宽，即使在多用户场景中，访存带宽仍然是关键指标。

🏷️