小红花·文摘

本研究提出了一种新的无状态优化器框架，通过对随机梯度进行多标准归一化，解决了训练大型语言模型时的内存开销问题。实验结果表明，该方法在保持内存效率的同时，训练速度比Adam快3倍，具有重要的应用潜力。