小红花·文摘

本文介绍了使用上下文长度外推方法扩展现代大型语言模型在评估时处理输入序列长度的研究。通过调研和新设计，发现线性标度是最佳方法，并可进一步提高效果。同时，发现截断基础中存在有希望的推测能力。为了支持进一步研究，发布了三个新的参数长上下文模型，并提供了复制结果的代码。