本研究提出了一种新型无状态优化器框架,有效解决了训练大型语言模型的内存开销问题。实验结果表明,该方法在内存效率上表现优异,训练速度比Adam快3倍,展现出重要潜力。
完成下面两步后,将自动完成登录并继续当前操作。