小红花·文摘

在Google Colab中优化GPU使用

DEV Community ·

本文提出了一种基于忆阻器的深度神经网络（DNN）框架，结合权重修剪和量化，利用交替方向乘子法（ADMM）实现高压缩比和低精度损失。研究表明，该框架在VGG-16和ResNet-18网络上显著降低了功耗和面积，同时保持较高的训练准确率。此外，探讨了混合精度训练方案和新算法，以提高大型语言模型的服务效率，解决系统提示的瓶颈问题。

在_memristor交叉阵列上实现大型语言模型的能源高效部署：大与小的协同

BriefGPT - AI 论文速递 ·

本文介绍了分布式训练系统的基础概念、架构和并行策略，以DeepSpeed为例介绍了在集群上训练大语言模型。分布式训练通过数据并行、模型并行和混合并行等方式实现，并使用混合精度训练和动态损失缩放等技术降低内存占用。

理论+实践，带你了解分布式训练

华为云官方博客 ·