小红花·文摘 - 小红花技术领袖俱乐部

使用完全分片数据并行在多个GPU上训练大型模型

使用完全分片数据并行在多个GPU上训练大型模型

MachineLearningMastery.com ·

研究提出了Transition Model（TiM），旨在解决生成模型中的速度与质量矛盾。TiM通过建模任意时间点的状态转移，支持灵活步长采样，实现快速生成与高保真度的平衡。实验结果表明，TiM在多分辨率设置下优于现有模型，具备更好的可扩展性和稳定性。

兼得快与好！训练新范式TiM，原生支持FSDP+Flash Attention

量子位 ·

`local_state_dict` 在 PyTorch 中用于分布式训练的参数保存与加载，特别适合完全分片数据并行（FSDP）。使用时需确保模块结构兼容。示例代码展示了如何高效管理局部状态字典的保存与加载。

【vLLM 学习】Load Sharded State

HyperAI超神经 ·

结合 HSDP 及模型并行加速 Llama3 训练

结合 HSDP 及模型并行加速 Llama3 训练

亚马逊AWS官方博客 ·