LongWriter:释放长达10,000+字生成的长上下文大型语言模型
原文中文,约500字,阅读约需2分钟。发表于: 。本研究解决了现有长上下文大型语言模型在生成超过2000字输出时的局限性,主要是由于监督微调数据集中缺乏长输出示例。通过引入AgentWrite管道,将超长生成任务拆分为子任务,从而成功生成超过20,000字的连贯输出,并构建了LongWriter-6k数据集。在LongBench-Write基准测试中,我们的模型达到了最新的性能,表明现有模型具备扩大输出窗口的潜力,只需适当的数据进行对齐。
本文介绍了支持高达32,768个令牌的长上下文LLMs模型,通过预训练和上采样长文本数据集,取得了显著改进。作者分析了模型的组成部分,并验证了长上下文持续预训练的高效性和有效性。