小红花·文摘

GPipe是一种高效的模型并行化库，支持将子层分布在不同加速器上以提升吞吐量。研究表明，微批量大小为1时可实现最佳训练效率。PipeOptim策略解决了异步训练中的权重一致性问题。Helix系统通过优化模型放置和请求调度，提高了大语言模型的服务吞吐量。Optimus系统则通过优化调度，提升了多模态大语言模型的训练速度。

自由骑行：在流水线并行中利用气泡

BriefGPT - AI 论文速递 ·

本文介绍了一种名为 Block-State Transformer 的混合层，它在内部组合了用于长距离上下文建模的 SSM 子层和用于序列的短期表示的 Block Transformer 子层，并研究了三种完全可并行化的 SSM 和块状注意力的集成变体。该模型在语言模型困惑度上胜过类似的基于 Transformer 的架构，并可以推广到更长的序列。此外，Block-State Transformer 在模型并行化时的层级速度比 Block-Recurrent Transformer 快了十倍以上。

卷积状态空间模型用于长程时空建模

BriefGPT - AI 论文速递 ·