小红花·文摘

本文讨论了大规模模型训练中的并行化技术，特别是671B MoE模型的训练挑战。随着模型规模的增加，单卡显存不足以支持训练，因此需要采用数据并行、张量并行和流水线并行等多种策略。文章分析了显存消耗、通信成本及不同并行策略的优缺点，并强调了优化通信与计算重叠的重要性。最后，提出了针对不同规模模型的并行配置建议。

【大模型基础设施工程】06：3D 并行深度——数据 / 张量 / 流水 / 序列 / ZeRO

土法炼钢兴趣小组的博客 ·

评估不同的并行化技术以减少脑编码的训练时间。使用Intel Math Kernel Library在单个机器上使用32个线程时比OpenBLAS库快1.9倍。使用Dask进行批处理并行化的Batch-MultiOutput回归在计算节点和线程上扩展得很好，在8个计算节点和32个线程相对于单线程的情况下加速了33倍。这种方法在高性能计算系统上使用scikit-learn和大型fMRI数据集进行脑编码具有可扩展性。

大规模个体 fMRI 数据集中脑编码的岭回归扩展

BriefGPT - AI 论文速递 ·