大语言模型推理显存占用简析

大语言模型推理显存占用简析

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

大语言模型的显存占用与参数量和精度有关。参数量由模型架构决定,精度可通过量化降低。不同精度(如FP32、FP16、INT8)会影响显存需求,降低精度可以节省显存,但可能影响性能。

🎯

关键要点

  • 大语言模型的显存占用与参数量和精度有关。

  • 参数量由模型架构决定,无法后期调整。

  • 不同精度(如FP32、FP16、INT8)会影响显存需求。

  • 降低精度可以节省显存,但可能影响性能。

  • FP32、FP16/BF16和INT8分别对应4字节、2字节和1字节的参数存储。

  • DeepSeek V3和R1引入了更低精度的参数如2bit和1.58bit。

  • 显卡算力需要查看详细规格,不能仅依赖总算力。

  • 计算示例显示,13B参数模型使用FP16时显存需求为26GB。

  • FP8的DeepSeek V3需要620G显存,而全精度FP16需要1240G显存。

  • 降低精度带来的显存收益高于性能下降的损失。

➡️

继续阅读