小红花·文摘

本文讨论了大规模模型训练中的并行化技术，特别是671B MoE模型的训练挑战。随着模型规模的增加，单卡显存不足以支持训练，因此需要采用数据并行、张量并行和流水线并行等多种策略。文章分析了显存消耗、通信成本及不同并行策略的优缺点，并强调了优化通信与计算重叠的重要性。最后，提出了针对不同规模模型的并行配置建议。

【大模型基础设施工程】06：3D 并行深度——数据 / 张量 / 流水 / 序列 / ZeRO

土法炼钢兴趣小组的博客 ·

本研究探讨了语言模型在图像生成中的应用，揭示了图像标记与文本标记的随机性差异对训练的挑战。小模型在捕捉全局上下文方面有限，而大模型则显著提升，为视觉生成领域的设计提供了重要见解。

阐明用于图像生成的语言模型设计空间

BriefGPT - AI 论文速递 ·

本文讨论了联邦学习的安全挑战和防御技术，包括数据污染、推断攻击和模型毒化攻击。同时，提出了解决非独立同分布数据、高维度问题和异构架构的训练挑战的方案。最后，探讨了联邦学习训练中的剩余挑战和研究方向建议。

通过联邦协同训练保护敏感数据

BriefGPT - AI 论文速递 ·