Fatescript ·

Tensor是如何让你的内存/显存泄漏的

💡 原文中文，约7100字，阅读约需17分钟。

📝

内容提要

本文探讨了Tensor在使用过程中导致的内存和显存泄漏问题。通过复现代码，分析了不同模型和数据量对泄漏速度的影响，发现Tensor的requires_grad属性会导致额外的AutogradMeta信息被保存，从而引发内存泄漏。理解这一机制有助于算法工程师解决相关问题。

🎯

❓

当Tensor的requires_grad为True时，每次运算都会保存AutogradMeta信息，导致内存占用增加，从而引发内存泄漏。

不同模型的内存泄漏速度不同，主要是因为模型的损失函数数量不同，导致内存泄漏的速度也有所差异。

增加数据量会使得同一模型在更早的epoch达到内存泄漏的临界点，因为每个epoch内的迭代次数增多。

可以通过创建一个固定数据的dataloader并不断训练，观察内存和显存的变化来复现内存泄漏问题。

虽然Tensor的数据存储在GPU上，但Tensor的其他信息（如shape和stride）也占用CPU内存，因此会导致内存泄漏。

可以通过将Tensor的requires_grad设置为False，或者在运算后使用detach()来避免内存泄漏。

🏷️

HostKVM香港优化线路 VPS 限时 8 折：4GB 内存/2 核/40G SSD 仅需 $9.6/月
HostKVM推出香港VPS夏季特惠，所有线路享受8折优惠，针对内地客户优化，具备低延迟和高带宽性价比，支持信用卡和支付宝等多种支付方式。
The crucial human component in computing and AI
The MIT Ethics of Computing Research Symposium brought together experts and r...
Replit展示了氛围编码如何获得自己的金融基础设施——以及通往盈利的路径
Making apps is easier than it’s ever been, but making money from them is anot...
Cloudflare收购VoidZero：开放网络的一部分是变得更加稳定，还是变得更加脆弱？
Cloud network security and content delivery network company Cloudflare announ...
60分钟内消失
CBS的《60分钟》节目面临危机，著名记者斯科特·佩利因质疑管理层而被解雇。节目记者对此决定表示不安，认为新闻室不应像独裁政权运作。佩利指责新管理层在政治...
20260605的胡言乱语
本文介绍了多种技术工具和方法，包括YAMLResume简历管理工具、终端中的cal命令、Shlink短链接服务、systemd timers替代cron、...