SOAP:使用Adam改进和稳定洗发水

原文中文,约400字,阅读约需1分钟。发表于:

本研究针对洗发水(Shampoo)在深度学习优化任务中的缺陷,如额外的超参数和计算开销,提出了一种新的算法SOAP,通过在洗发水的预条件子特征基上运行Adam,以提高计算效率。研究表明,SOAP在大型批处理模式下可显著减少迭代次数超过40%,并且墙钟时间缩短超过35%,相较于AdamW与洗发水均有约20%的优化效果。

Shampoo是一种在线和随机优化算法,用于训练神经网络。它通过块对角预处理器和PyTorch进行规模化训练的性能优化,实现了快速的多GPU分布式数据并行训练。在训练ImageNet ResNet50上进行的消融研究中,展示了Shampoo在最小超参数调整下对标准训练配方的优越性。

相关推荐 去reddit讨论