💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
大语言模型的显存占用与参数量和精度有关。参数量由模型架构决定,精度可通过量化降低。不同精度(如FP32、FP16、INT8)会影响显存需求,降低精度可以节省显存,但可能影响性能。
🎯
关键要点
-
大语言模型的显存占用与参数量和精度有关。
-
参数量由模型架构决定,无法后期调整。
-
不同精度(如FP32、FP16、INT8)会影响显存需求。
-
降低精度可以节省显存,但可能影响性能。
-
FP32、FP16/BF16和INT8分别对应4字节、2字节和1字节的参数存储。
-
DeepSeek V3和R1引入了更低精度的参数如2bit和1.58bit。
-
显卡算力需要查看详细规格,不能仅依赖总算力。
-
计算示例显示,13B参数模型使用FP16时显存需求为26GB。
-
FP8的DeepSeek V3需要620G显存,而全精度FP16需要1240G显存。
-
降低精度带来的显存收益高于性能下降的损失。
➡️