知乎每日精选 ·

谁动了我的显存？——深度学习训练过程显存占用分析及优化

💡 原文中文，约8100字，阅读约需20分钟。

📝

内容提要

在大语言模型时代，显存不足是一个突出问题。本文分析了深度学习训练中的显存占用，包括框架、模型参数和特征相关的占用。通过样例程序展示了不同情况下的显存需求。使用torch.autograd.Function实现算子融合可以节约显存开销。介绍了查看pytorch自带算子保存的变量的方法。

🎯

关键要点

在大语言模型时代，显存不足是一个突出问题。
深度学习训练中的显存占用分为框架占用、模型参数相关占用和特征相关占用。
框架占用如pytorch的cuda context占用几百MB显存。
模型参数占用以FP16格式的7B模型需要14GB显存，优化器和梯度相关参数也占用显存。
特征相关的显存占用与模型计算流程有关，具体比例系数难以分析。
使用样例程序计算(x+1)(y+1)的显存需求，区分峰值显存占用与持续显存占用。
不需要计算梯度时，显存占用较低，计算结束后几乎不占显存。
需要计算梯度时，临时变量不会被释放，显存占用增加。
通过torch.autograd.Function实现算子融合可以节约显存开销。
使用pytorch自带的融合算子如sigmoid，显存占用显著降低。
算子融合是深度学习编译器的核心技术，优化仍需人工设计。
可以通过grad_fn属性查看pytorch自带算子保存的变量。

🏷️

继续阅读

分析：AI 助手在回答流媒体可用性查询方面表现不一致
一项分析显示，流媒体影片可用性数据的准确率，ChatGPT为43.76%，Claude为50.21%，而Reelgood高达96.89%。大语言模型在处理...
NVIDIA研究解锁先进抓取技术、更智能的自动驾驶和大规模代理训练
NVIDIA的研究展示了通过大规模训练提升机器人抓取、自动驾驶和虚拟代理能力的突破。GraspGen-X模型适应不同抓手，LCDrive加速自动驾驶决策，...
量子破解倒计时：Google 10倍优化被保密，法国破解
量子计算进展迅速，Google的Shor算法优化被法国专家破解，显示出对密码学的威胁加剧。研究表明，破解比特币密码可能只需一万个量子比特，预计2032年前...
语音增强中的自监督学习：从无配对训练到基础模型先验
语音增强（SE）面临数据、目标和任务等挑战，自监督学习（SSL）逐渐成为解决方案。SSL通过未配对数据学习和生成式方法，重塑了SE的训练目标。研究表明，S...
记一次 .NET 某注塑模具系统 CPU爆高分析 - 一线码农
最近一位朋友遇到CPU使用率飙升的问题，分析dump文件后发现程序仅使用两个核心，导致负载过高。调查显示，GC触发是由于大对象堆（LOH）满，主要原因是将...
KubeClipper 1.6.0 发布：kcctl 优化与 K8s 1.36 支持
KubeClipper 1.6.0 发布，支持 Kubernetes 1.36，升级 Containerd 至 2.x，Calico 更新至 v3.31....

谁动了我的显存？——深度学习训练过程显存占用分析及优化

内容提要

关键要点

标签

继续阅读