在大语言模型时代,显存不足是一个突出问题。本文分析了深度学习训练中的显存占用,包括框架、模型参数和特征相关的占用。通过样例程序展示了不同情况下的显存需求。使用torch.autograd.Function实现算子融合可以节约显存开销。介绍了查看pytorch自带算子保存的变量的方法。
完成下面两步后,将自动完成登录并继续当前操作。