小红花·文摘 - 小红花技术领袖俱乐部

如何加速语言模型的训练

如何加速语言模型的训练

MachineLearningMastery.com ·

本文探讨了重尾梯度噪声环境下传统梯度裁剪方法的局限性，提出了归一化随机梯度下降（NSGD），并证明了其在样本复杂度和高概率收敛性方面的优势。

From Gradient Clipping to Normalization for Heavy-Tailed Stochastic Gradient Descent

BriefGPT - AI 论文速递 ·

本文介绍了在华为云平台上开发轻量级目标检测与分割算法的过程，使用LinkNet作为主干网络，并进行梯度裁剪。云端训练完成后，使用ONNXRuntime进行推理，端侧使用ModelBox开发套件进行推理。总结了项目的工程化过程，并提到了模型量化和优化算法的改进。

动手实践丨轻量级目标检测与分割算法开发和部署(RK3568)

华为云官方博客 ·