清华唐杰团队新作:一口气生成2万字,大模型开卷长输出
💡
原文中文,约1500字,阅读约需4分钟。
📝
内容提要
清华唐杰团队通过AgentWrite方法成功将GLM-4和Llama-3.1的输出长度增加到7800字,翻了4倍。他们还生成了6000个长输出SFT数据,并将其添加到训练过程中。研究团队表示将进一步扩展模型的输出长度和质量,并提高效率。
🎯
关键要点
-
清华唐杰团队通过AgentWrite方法成功将GLM-4和Llama-3.1的输出长度增加到7800字,翻了4倍。
-
目前大模型的生成长度普遍在2000字以下,影响内容创作和问题回答的全面性。
-
研究由智谱AI创始人李涓子和清华大学教授唐杰共同领衔,论文和代码已开源。
-
研究主要包括分析文本生成长度限制、提出AgentWrite和扩展LLM输出窗口大小。
-
研究人员发现现有模型输出长度受限主要是因为SFT数据集中缺少长输出样本。
-
AgentWrite方法将超长文本生成任务分解为多个子任务,制定详细写作计划。
-
团队生成了6000个长输出SFT数据,构成数据集LongWriter-6k,并添加到训练中。
-
评估结果显示,使用AgentWrite后模型输出长度明显增加,GLM-4-9B实现最佳性能。
-
未来研究将进一步扩展模型的输出长度和质量,并提高生成效率。
➡️