小红花·文摘

大模型推动人工智能领域的分布式训练技术升级。飞桨框架3.0引入自动并行技术，简化开发流程，降低成本，支持多种并行策略，提升训练性能。开发者通过少量代码即可实现高效的分布式训练，显著提高开发效率和模型性能。

大模型训练代码开发再提效——3行代码就能实现分布式训练！飞桨框架3.0自动并行功能现已正式上线！

百度大脑 ·

本论文提出了Stable-SPAM方法，解决了4位训练中的梯度不稳定和学习率敏感问题。通过增强梯度归一化和剪切技术，Stable-SPAM显著提高了训练的稳定性和性能，优于基于Adam的模型，并减少了训练步骤。

Stable-SPAM: How to Achieve More Stability in 4-Bit Training Compared to 16-Bit Adam

BriefGPT - AI 论文速递 ·

在 Amazon SageMaker AI 上使用 TorchRec 构建大规模推荐模型—模型训练篇

亚马逊AWS官方博客 ·

本研究提出了一种新方法，深入探讨浮点量化对大规模语言模型训练性能的影响，发现最佳精度与计算能力成正比，为硬件制造商提供了优化建议。

Scaling Laws of Floating-Point Quantization Training

BriefGPT - AI 论文速递 ·

本研究提出了一种轻量级的联邦分割学习方案，旨在解决边缘设备在联邦学习中的资源限制问题。通过动态剪枝和量化梯度更新，显著降低了计算和通信开销，实验结果表明在无线网络中有效提升了训练性能。

Federated Split Learning with Model Pruning and Gradient Quantization in Wireless Networks

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的IKUN初始化方法，旨在改善脉冲神经网络（SNNs）的训练和泛化性能。IKUN通过方差稳定技术和替代梯度函数，显著加速收敛，训练准确率提高至95%，泛化准确率达到91%，训练效率提升50%。

IKUN: An Initialization Method to Maintain Training and Generalization Performance in Spiking Neural Networks

BriefGPT - AI 论文速递 ·

百度在Wave Summit 2023深度学习开发者大会上分享了PaddleMIX，一套完整的大模型开发工具链，具备一站式模型的开发体验、极致的训练、推理性能，同时保持生态的兼容。PaddleMIX通过一系列优化实现了超越Pytorch的训练和推理性能。

飞桨大模型套件：一站式体验，性能极致，生态兼容

百度大脑 ·

DEFT是一种新颖的梯度稀疏化方案，将梯度选择任务划分为子任务并分配给工作节点，可以减少计算成本和消除梯度累积。实证评估表明，DEFT相对于现有的稀疏化方法在梯度选择的速度方面显示出显著的训练性能改进，同时实现了高收敛性能。

MiCRO：用于扩展和加速分布式 DNN 训练的几乎零成本梯度稀疏化

BriefGPT - AI 论文速递 ·

阿里云机器学习平台PAI与北京大学杨智老师团队合作的论文《GoldMiner: Elastic Scaling of Training Data Pre-Processing Pipelines for Deep Learning》被数据库领域顶会SIGMOD 2023接收。GoldMiner通过分离数据预处理流水线和模型训练部分，实现了高效的并行加速和弹性伸缩，解决了数据预处理瓶颈问题，提升训练性能。该论文通过自动计算图分析识别无状态的数据预处理计算，并利用无状态性实现了自动化的图切分和数据传递，提供了动态调整资源的data worker调度器。在真实推荐模型上的评测中，GoldMiner可为用户模型加速1.43倍，并削减13%的训练成本。

深度学习弹性数据流水线系统 GoldMiner，大幅提升任务和集群效率

阿里云云栖号 ·