阿掖山：一个博客 ·

.ai | PyTorch 中的自动微分 autograd

💡 原文中文，约6700字，阅读约需16分钟。

📝

内容提要

本文探讨了PyTorch的自动微分机制，强调计算图和反向传播的重要性。自动微分主要针对PyTorch张量，神经网络通过torch.nn.Module实现，计算过程封装在forward()方法中。文章还介绍了张量的创建与操作，以及在训练中管理梯度和参数更新的方式。

🎯

🔎

PyTorch中的自动微分机制是基于计算图和反向传播的。理解这一机制对于有效使用PyTorch进行深度学习至关重要。计算图是动态生成的，意味着每次运行代码时，PyTorch都会根据当前的计算生成新的图，这使得调试和修改模型变得更加灵活。

在PyTorch中，张量的创建方式多样，推荐使用小写的torch.tensor()方法以确保数据的拷贝。使用requires_grad参数可以控制张量是否参与自动微分，这对于训练神经网络时管理梯度至关重要。了解这些细节有助于避免内存和计算资源的浪费。

计算图的最终节点只能执行一次.backward()，多次执行会导致错误。这意味着在训练过程中需要谨慎管理计算图，特别是在需要多次反向传播的情况下。使用retain_graph=True参数可以在特定情况下保留计算图，以便后续使用。

❓

PyTorch的自动微分机制通过动态构建计算图来记录张量的计算过程，支持反向传播以计算梯度。

可以使用torch.tensor()、torch.from_numpy()等方法创建张量，也可以使用各种工厂函数如torch.empty()、torch.zeros()等。

使用torch.optim模块中的优化器，通过调用.step()方法更新参数，调用.zero_grad()方法清零梯度。

计算图是自动微分的基础，它记录了张量之间的计算关系，允许在反向传播时高效计算梯度。

通过设置requires_grad参数为True来控制张量是否参与自动微分，使用torch.no_grad()可以在特定操作中禁用梯度计算。

默认情况下，计算图的最终节点只能执行一次.backward()，若需多次执行，需在第一次调用时设置retain_graph=True。

🏷️