LongAlign: 大型语言模型的长文本对齐配方

原文约500字，阅读约需2分钟。发表于：。

扩展大型语言模型以有效处理长篇背景需要依据相似长度的输入序列进行指导微调，本文提出了 LongAlign 框架，包括长篇背景对齐的指导数据、训练和评估方法，通过 Self-Instruct 构建了包含各种长篇背景任务的数据集，采用打包和排序批处理策略加快有差异长度分布的数据的监督微调，引入了损失权重方法以平衡打包训练过程中不同序列对损失的贡献，并引入了 LongBench-Chat 测试基准来评估对 1 万至 10 万字查询的指导跟进能力，实验证明 LongAlign 在长篇背景任务中性能比现有的大型语言模型框架提升了 30％，同时保持了对短语、通用任务的熟练处理能力。

本文介绍了支持高达32,768个令牌的长上下文LLMs，通过持续预训练和上采样长文本数据集构建模型。模型在语言模型、合成上下文探索任务和研究基准上取得了改进。通过指令调整过程，70B变体在长上下文任务中超过了gpt-3.5-turbo-16k。文章还对Llama的位置编码和预训练过程进行了分析。