清华唐杰团队新作:一口气生成2万字,大模型开卷长输出

💡 原文中文,约1500字,阅读约需4分钟。
📝

内容提要

清华唐杰团队通过AgentWrite方法成功将GLM-4和Llama-3.1的输出长度增加到7800字,翻了4倍。他们还生成了6000个长输出SFT数据,并将其添加到训练过程中。研究团队表示将进一步扩展模型的输出长度和质量,并提高效率。

🎯

关键要点

  • 清华唐杰团队通过AgentWrite方法成功将GLM-4和Llama-3.1的输出长度增加到7800字,翻了4倍。

  • 目前大模型的生成长度普遍在2000字以下,影响内容创作和问题回答的全面性。

  • 研究由智谱AI创始人李涓子和清华大学教授唐杰共同领衔,论文和代码已开源。

  • 研究主要包括分析文本生成长度限制、提出AgentWrite和扩展LLM输出窗口大小。

  • 研究人员发现现有模型输出长度受限主要是因为SFT数据集中缺少长输出样本。

  • AgentWrite方法将超长文本生成任务分解为多个子任务,制定详细写作计划。

  • 团队生成了6000个长输出SFT数据,构成数据集LongWriter-6k,并添加到训练中。

  • 评估结果显示,使用AgentWrite后模型输出长度明显增加,GLM-4-9B实现最佳性能。

  • 未来研究将进一步扩展模型的输出长度和质量,并提高生成效率。

➡️

继续阅读