小红花·文摘

通过全面评估8个大型语言模型，发现商业模型GPT-3.5-Turbo-16k在长语境下表现优于其他开源模型，但仍存在困难。缩放位置嵌入和微调对长语境理解有实质性改进。上下文压缩技术改善了长上下文能力较弱的模型，但性能仍落后于具有强大长上下文理解能力的模型。