小红花·文摘

我们开发了支持32,768个令牌的长上下文语言模型，通过持续预训练和长文本数据集构建。模型在语言任务和研究基准上表现优异，尤其在长上下文任务上超越了Llama 2。70B变体在长上下文任务中超过了gpt-3.5-turbo-16k。研究表明，长上下文持续预训练比从头开始的长序列预训练更高效。我们还分析了Llama的位置编码及其在长依赖性建模中的局限性。

HELMET：如何有效而全面地评估长文本语言模型

BriefGPT - AI 论文速递 ·

我们开发了支持32,768个令牌的长上下文LLMs，通过持续预训练和长文本数据集构建。模型在语言任务和研究基准上表现优异，尤其在长上下文任务上超过Llama 2。70B变体在长上下文任务中优于gpt-3.5-turbo-16k。分析表明，长上下文持续预训练更高效。

InfiniPot：在内存受限的大型语言模型上进行无限上下文处理

BriefGPT - AI 论文速递 ·

本文介绍了支持高达32,768个令牌的长上下文LLMs，通过预训练和调整过程，在语言模型和合成上下文探索任务中取得了改进。模型在长上下文任务中超过了gpt-3.5-turbo-16k。对模型的各个组成部分进行了深入分析。

复述原文” 提高了长篇背景问答的准确性

BriefGPT - AI 论文速递 ·