本文介绍了一种用于训练和评估现代大型语言模型的上下文长度外推方法,通过测试发现线性标度是最佳方法,使用更长的标度在评估时获得更好结果。作者还发布了三个新的参数长上下文模型及代码。
本文介绍了使用上下文长度外推方法扩展现代大型语言模型在评估时处理输入序列长度的研究。通过调研和新设计,发现线性标度是最佳方法,并可进一步提高效果。同时,发现截断基础中存在有希望的推测能力。为了支持进一步研究,发布了三个新的参数长上下文模型,并提供了复制结果的代码。
完成下面两步后,将自动完成登录并继续当前操作。