大语言模型在GPU上运行时的显存占用主要包括模型参数、梯度、优化器状态、激活值和KV缓存。以7B模型为例,推理时显存需求约为18.8GB,训练时可达114GB。显存需求受参数量、精度、批量大小和序列长度影响。可通过量化和高效微调等技术降低显存占用。
华为GTS AI计算Lab的研究团队提出了LocMoE+架构,结合了传统的被动路由和专家主动路由机制,通过提高处理判别性token的概率来降低样本噪声和提升训练效率。实验结果表明,LocMoE+可以减少每个专家需要处理的token数量,并提高训练效率,同时减少显存占用。该架构在通用知识和领域知识上的能力也得到了评估。
南开大学研究团队在ICML 2024上发表论文,提出Approx-BP和MS-BP两种反向传播改进策略,可显著减少微调过程中的显存占用。实验结果显示,这两种策略能有效降低Transformer模型微调的峰值显存占用,且不影响训练速度和精度,为显存节省提供新方案。
本文介绍了Multi-Query Attention技术,可共享Key和Value矩阵,提高推理速度和降低显存占用。MQA和MHA在代码实现上有差异,本地加载ChatGLM2-6B模型。基于P-Tuning v2的微调方法可将参数量减少到原来的0.1%,微调后的模型效果更好。
本文介绍了 DragGAN 的第三方实现版本,并提供了在线体验和本地部署的方法。安装 Conda 和 PyTorch,使用 pip 安装 DragGAN,通过命令行运行 DragGAN 的 Demo。界面功能包括选择模型、分辨率和显存占用。
在大语言模型时代,显存不足是一个突出问题。本文分析了深度学习训练中的显存占用,包括框架、模型参数和特征相关的占用。通过样例程序展示了不同情况下的显存需求。使用torch.autograd.Function实现算子融合可以节约显存开销。介绍了查看pytorch自带算子保存的变量的方法。
完成下面两步后,将自动完成登录并继续当前操作。