小红花·文摘 - 小红花技术领袖俱乐部

大语言模型在GPU上运行时的显存占用主要包括模型参数、梯度、优化器状态、激活值和KV缓存。以7B模型为例，推理时显存需求约为18.8GB，训练时可达114GB。显存需求受参数量、精度、批量大小和序列长度影响。可通过量化和高效微调等技术降低显存占用。

大模型GPU显存算力需求计算

安志合的学习博客 ·

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

机器之心 ·

ICML 2024 | 梯度检查点太慢？不降速、省显存，LowMemoryBP大幅提升反向传播显存效率

ICML 2024 | 梯度检查点太慢？不降速、省显存，LowMemoryBP大幅提升反向传播显存效率

机器之心 ·

本文介绍了Multi-Query Attention技术，可共享Key和Value矩阵，提高推理速度和降低显存占用。MQA和MHA在代码实现上有差异，本地加载ChatGLM2-6B模型。基于P-Tuning v2的微调方法可将参数量减少到原来的0.1%，微调后的模型效果更好。

通透理解FlashAttention与FlashAttention2：全面降低显存读写、加快计算速度

结构之法算法之道 ·

未来最理想的AI P图软件——DragGAN 抢先体验与本地部署教程

未来最理想的AI P图软件——DragGAN 抢先体验与本地部署教程

无名小站 ·

谁动了我的显存？——深度学习训练过程显存占用分析及优化

谁动了我的显存？——深度学习训练过程显存占用分析及优化

知乎每日精选 ·