本研究提出了一种新的无状态优化器框架,通过对随机梯度进行多标准归一化,解决了训练大型语言模型时的内存开销问题。实验结果表明,该方法在保持内存效率的同时,训练速度比Adam快3倍,具有重要的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。