小红花·文摘

PaddleNLP推出Unified Checkpoint技术，通过灵活的分布式策略切换和优化Checkpoint存储，显著提升训练效率和存储速度，节省空间，改善训练体验。

飞桨大模型Unified Checkpoint技术加速模型存储95%，节省空间78.5%

百度大脑 ·

PAI-TorchAcc是阿里云人工智能平台PAI开发的Pytorch上的大模型训练加速框架，提供简洁易用的接口，支持各种大模型的多种规模，兼容不同的硬件。核心技术特性包括灵活的模型接入、千亿级模型参数量、全面的训练模式、组合的分布式策略、自动计算优化和显存优化。

AI加速引擎 PAI-TorchAcc：整体介绍与性能概述

阿里云云栖号 ·

本研究探讨了大型语言模型在成本高效的推理和微调方面的方法，并比较了本地和分布式策略。通过开发特殊的容错推理算法和负载平衡协议，实现了自动分配设备以最大化系统总吞吐量。在 Petals 中的应用展示了这些算法，该分散式系统能够以比离线处理快 10 倍的速度运行大型语言模型。通过模拟条件和跨越两大洲的真实场景对系统性能进行了评估。

互联网上大规模语言模型的分布式推理和微调

BriefGPT - AI 论文速递 ·