本研究提出了AnchorAttention方法,解决了BFloat16格式与Rotary Positional Embedding结合时的数值问题,提升了长上下文处理能力,训练时间缩短超过50%,同时保持了大型语言模型的任务能力。
完成下面两步后,将自动完成登录并继续当前操作。