LM-Infinite:大语言模型的简易即时长度泛化
原文中文,约500字,阅读约需2分钟。发表于: 。基于 Transformer 的大型语言模型存在长度泛化问题,传统的预训练模式需要耗费大量时间和资源进行解决,本研究提出了一种简单而有效的解决方案 LM-Infinite,不需要参数更新或学习,具有计算效率高且生成质量好的特点,在长序列上有较之前的模型更好的表现。
本文介绍了使用上下文长度外推方法扩展现代大型语言模型在评估时处理输入序列长度的研究。通过调研和新设计,发现线性标度是最佳方法,并可进一步提高效果。同时,发现截断基础中存在有希望的推测能力。为了支持进一步研究,发布了三个新的参数长上下文模型,并提供了复制结果的代码。