SoLoPO:通过短到长的偏好优化解锁大语言模型的长上下文能力

📝

内容提要

本文针对大语言模型在实际长上下文信息利用中面临的挑战,提出了一种名为SoLoPO的框架。该框架将长上下文偏好优化分为短上下文偏好和短到长的奖励对齐两个组件,有效提升了模型在长上下文场景下的能力。实验结果表明,SoLoPO在各类长上下文基准测试中显著改善了模型的长度和领域泛化能力,并在计算和内存效率上取得了明显提升。

🏷️

标签

➡️

继续阅读