LOGO - 通过高效偏好优化实现长上下文对齐

本研究针对长上下文模型在生成性能上的不足，提出了一种新的训练策略LOGO，旨在通过引入偏好优化解决长序列导致的内存瓶颈。LOGO在使用仅0.3B数据的情况下，显著提升了模型的生成能力，使其在实际长上下文任务中表现媲美GPT-4，同时保留了模型在其他任务中的原有能力。

我们介绍了一系列支持高达32,768个令牌的长上下文LLMs。通过持续预训练，这些模型在长文本数据集上表现优异，尤其在长上下文任务中显著超越Llama 2。70B变体在长任务中超过gpt-3.5-turbo-16k。我们分析了位置编码的局限性及预训练设计选择的影响，验证了长上下文持续预训练的有效性。

LLMs 位置编码性能长上下文预训练