当精度遇上位置:BFloat16在长上下文训练中打破RoPE
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了AnchorAttention方法,解决了BFloat16格式与Rotary Positional Embedding结合时的数值问题,提升了长上下文处理能力,训练时间缩短超过50%,同时保持了大型语言模型的任务能力。
🎯
关键要点
- 本研究提出了AnchorAttention方法。
- 解决了BFloat16格式与Rotary Positional Embedding结合时的数值问题。
- 提升了长上下文处理能力。
- 训练时间缩短超过50%。
- 保持了大型语言模型的任务能力。
➡️