梅萨外推:一种增强大型语言模型外推能力的编织位置编码方法
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
YaRN是一种扩展RoPE的方法,可以有效增加transformer模型的上下文窗口,减少所需令牌和训练步骤。通过YaRN,LLaMA模型能够处理比预训练更长的上下文,并超越现有技术。YaRN还展示了在有限上下文的微调数据集上的能力,并发布了使用64k和128k上下文窗口微调的Llama 2 7B/13B模型。
🎯
关键要点
- RoPE在transformer模型中有效编码位置信息,但无法推广到训练序列长度之外。
- YaRN是一种新的RoPE扩展方法,能够有效增加模型的上下文窗口。
- YaRN所需的令牌数量比先前方法少10倍,训练步骤少2.5倍。
- 使用YaRN,LLaMA模型能够处理比预训练更长的上下文,并超越现有技术水平。
- YaRN在有限上下文的微调数据集上表现出色。
- 发布了使用64k和128k上下文窗口微调的Llama 2 7B/13B模型的检查点。
➡️