小红花·文摘

本文介绍了支持高达32,768个令牌的长上下文LLMs模型，通过预训练和上采样长文本数据集，取得了显著改进。作者分析了模型的组成部分，并验证了长上下文持续预训练的高效性和有效性。

LongWriter：释放长达10,000+字生成的长上下文大型语言模型

BriefGPT - AI 论文速递 ·

该文章介绍了支持高达32,768个令牌的长上下文LLMs模型，通过预训练和上采样长文本数据集取得了显著改进。作者对模型进行了深入分析，并验证了长上下文持续预训练的高效性和有效性。

XL$^2$Bench：极长上下文理解与长距离依赖的基准测试

BriefGPT - AI 论文速递 ·

长上下文语言模型对长上下文学习困难

BriefGPT - AI 论文速递 ·

本文介绍了支持高达32,768个令牌的长上下文LLMs，通过持续预训练和上采样长文本数据集构建模型。模型在语言模型、合成上下文探索任务和研究基准上取得了一致的改进。70B变体在长上下文任务中超过了gpt-3.5-turbo-16k的整体性能。研究了位置编码和预训练过程中的设计选择的影响。验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

软银系列开放语言模型

BriefGPT - AI 论文速递 ·