Anjhon’s Blog ·

【小记】在 Docker 中多卡并行训练深度学习模型

💡 原文中文，约16700字，阅读约需40分钟。

📝

内容提要

在深度学习中，训练方式包括模型并行和数据并行。使用torch进行数据并行时，可以选择torch.nn.DataParallel或torch.nn.DistributedDataParallel。本文主要介绍如何在Docker中使用torch.nn.DataParallel进行单机多卡训练，包括环境准备和代码调整。

🎯

关键要点

深度学习训练方式分为模型并行和数据并行。
模型并行适用于模型大于显存的情况，通过将模型切割到不同GPU上训练。
数据并行是常用方式，每个GPU复制模型，将样本分发到各个GPU进行计算。
使用torch进行数据并行时有torch.nn.DataParallel和torch.nn.DistributedDataParallel两种选择。
本文重点介绍如何在Docker中使用torch.nn.DataParallel进行单机多卡训练。
Docker环境准备时需注意共享内存大小和GPU使用设置。
代码调整主要是将模型对象包装为DataParallel模块，或通过继承重写方法支持并行。
提供了调整模型代码的示例，展示如何实现并行训练。

❓

延伸问答

在深度学习中，什么是数据并行和模型并行？

数据并行是将模型复制到每个GPU上，并将样本分发到各个GPU进行计算；模型并行则是将模型切割到不同GPU上训练，适用于模型大于显存的情况。

如何在Docker中设置多卡训练的环境？

在Docker中设置多卡训练时，需要使用命令设置共享内存大小和GPU使用，例如：`docker run -d --name test_container --gpus all --shm-size=16g`。

使用torch进行数据并行时，有哪些选择？

使用torch进行数据并行时，可以选择torch.nn.DataParallel和torch.nn.DistributedDataParallel两种方式。

如何调整模型代码以支持DataParallel？

需要将模型对象包装为DataParallel模块，或者通过继承重写方法来支持并行训练。

在Docker中，为什么需要设置共享内存大小？

设置共享内存大小是为了确保多GPU之间进行通信和数据交换时不会出现内存不足的错误。

torch.nn.DataParallel和torch.nn.DistributedDataParallel有什么区别？

torch.nn.DataParallel适用于单机多卡训练，而torch.nn.DistributedDataParallel则适用于分布式训练，后者在性能和扩展性上更优。

🏷️

继续阅读

Cursor Composer 2.5发布：SpaceXAI算力+国产Kimi模型
Cursor发布的Composer 2.5模型通过扩大训练规模、改进强化学习和引入文本反馈，效率提升10倍，能够处理长达几十万个词的任务。与SpaceXA...
8B模型做生物实验：实验步骤顺序不乱、剂量无幻觉｜ICLR 2026
上海人工智能实验室与复旦、上海交通大学团队提出了Thoth模型，旨在生成可执行的生物实验protocol。该模型通过结构化推理，确保实验步骤的合理性和准确...
腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准
腾讯推出的轻量级机器翻译模型Hy-MT1.5-1.8B-1.25bit，支持33种语言和1056个翻译方向，翻译效果超越部分大型开源模型。该模型参数仅18...
Visual Studio中C++项目的NuGet PackageReference
Visual Studio 18.7版本开始支持在C++项目中使用<PackageReference>声明NuGet包依赖，旨在简化依赖管理，...
LG将在今年发布首款支持1000Hz刷新率的1080p游戏显示器
LG将在2026年下半年发布首款支持1000Hz刷新率的1080p游戏显示器25G590B。这款24.5英寸IPS屏幕专为电子竞技设计，具备AI场景优化和...
微软确认Windows 11 5月更新存在无法安装并触发0x800f0922错误代码自动回滚
微软确认Windows 11更新KB5089549因EFI系统分区空间不足导致安装失败，受影响设备在重启时会自动回滚，用户无需操作。微软已通过云端推送KI...