LongWriter：释放长达10,000+字生成的长上下文大型语言模型

本研究解决了现有长上下文大型语言模型在生成超过2000字输出时的局限性，主要是由于监督微调数据集中缺乏长输出示例。通过引入AgentWrite管道，将超长生成任务拆分为子任务，从而成功生成超过20,000字的连贯输出，并构建了LongWriter-6k数据集。在LongBench-Write基准测试中，我们的模型达到了最新的性能，表明现有模型具备扩大输出窗口的潜力，只需适当的数据进行对齐。

本文介绍了支持高达32,768个令牌的长上下文LLMs模型，通过预训练和上采样长文本数据集，取得了显著改进。作者分析了模型的组成部分，并验证了长上下文持续预训练的高效性和有效性。

上采样大型语言模型长上下文LLMs模型长文本数据集预训练高效性