LDAdam: An Adaptive Optimization Method Based on Low-Dimensional Gradient Statistics

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文介绍了LDAdam,一种内存高效的优化器,适用于大模型训练。它在低维子空间内自适应优化,同时探索完整参数空间,降低内存占用,并通过新规则实现语言模型的高效微调和预训练。

🎯

关键要点

  • LDAdam是一种内存高效的优化器,适用于大模型训练。

  • 该优化器在低维子空间内进行自适应优化,同时探索完整的参数空间。

  • LDAdam有效降低了优化器的内存占用。

  • 引入新的投影感知更新规则和广义误差反馈机制。

  • 实现了语言模型的高效微调和预训练。

➡️

继续阅读