LOGO - 通过高效偏好优化实现长上下文对齐
原文中文,约500字,阅读约需2分钟。发表于: 。本研究针对长上下文模型在生成性能上的不足,提出了一种新的训练策略LOGO,旨在通过引入偏好优化解决长序列导致的内存瓶颈。LOGO在使用仅0.3B数据的情况下,显著提升了模型的生成能力,使其在实际长上下文任务中表现媲美GPT-4,同时保留了模型在其他任务中的原有能力。
我们介绍了一系列支持高达32,768个令牌的长上下文LLMs。通过持续预训练,这些模型在长文本数据集上表现优异,尤其在长上下文任务中显著超越Llama 2。70B变体在长任务中超过gpt-3.5-turbo-16k。我们分析了位置编码的局限性及预训练设计选择的影响,验证了长上下文持续预训练的有效性。