本文介绍了一种用于训练和评估现代大型语言模型的上下文长度外推方法,通过测试发现线性标度是最佳方法,使用更长的标度在评估时获得更好结果。作者还发布了三个新的参数长上下文模型及代码。
该文介绍了一种用于训练现代大型语言模型的上下文长度外推方法,以处理更长的输入序列。作者测试了三个新的评估任务,并发现线性标度是扩展上下文长度的最佳方法。作者还发布了三个新的长上下文模型,名为Giraffe,并提供了复制结果的代码。
完成下面两步后,将自动完成登录并继续当前操作。