LDAdam: An Adaptive Optimization Method Based on Low-Dimensional Gradient Statistics
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文介绍了LDAdam,一种内存高效的优化器,适用于大模型训练。它在低维子空间内自适应优化,同时探索完整参数空间,降低内存占用,并通过新规则实现语言模型的高效微调和预训练。
🎯
关键要点
-
LDAdam是一种内存高效的优化器,适用于大模型训练。
-
该优化器在低维子空间内进行自适应优化,同时探索完整的参数空间。
-
LDAdam有效降低了优化器的内存占用。
-
引入新的投影感知更新规则和广义误差反馈机制。
-
实现了语言模型的高效微调和预训练。
➡️