基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传

💡 原文中文,约5500字,阅读约需13分钟。
📝

内容提要

研究发现,大语言模型在生成特定长度的文本时表现不佳,尤其在长文本生成方面普遍低于预期。新基准测试集LIFEBENCH评估了26个模型,结果显示大多数模型在长文本任务中的长度指令遵循存在显著不足,生成质量明显下降。

🎯

关键要点

  • 大语言模型在生成特定长度文本时表现不佳,尤其是长文本生成。

  • 新基准测试集LIFEBENCH评估了26个模型,揭示了它们在长度指令遵循方面的不足。

  • LIFEBENCH设计了多样化的数据集,涵盖多种任务类型和语言。

  • 模型在长度指令“等于”下表现最差,23个模型的长度评分低于60分。

  • 长文本生成任务中,所有模型的长度评分普遍低于40分,成为最大挑战。

  • 模型在中文任务中的表现普遍劣于英文任务,且存在过度生成现象。

  • 大多数模型的实际生成能力低于其声称的最大输出长度。

  • 模型遵循长度指令的三大瓶颈包括缺乏准确的长度感知能力、对输入长度的敏感性和懒惰生成策略。

  • 动态校准方法在长文本任务中效果不佳,增加了时间成本。

  • 模型在不同长度限制下的生成质量呈现起伏,短文本表现较好,中等长度表现最佳,长文本质量滑坡。

  • 复杂格式的输出对模型生成造成额外挑战,尤其在长文本中。

  • EoS信号在长文本生成中表现异常,模型倾向于提前结束生成。

  • 预训练和后训练的结合可以改善模型在长文本生成中的表现。

延伸问答

大语言模型在长文本生成中表现如何?

大多数模型在长文本生成任务中的长度评分普遍低于40分,表现显著下降。

LIFEBENCH基准测试集的主要特点是什么?

LIFEBENCH设计了多样化的数据集,涵盖多种任务类型和语言,专注于评估模型在长度指令下的表现。

模型在遵循长度指令时存在哪些瓶颈?

主要瓶颈包括缺乏准确的长度感知能力、对输入长度的敏感性和懒惰生成策略。

哪些因素影响大语言模型的生成质量?

生成质量受任务类型、语言和输入长度等因素的显著影响,尤其在中文任务中表现较差。

动态校准方法在长文本任务中的效果如何?

动态校准方法在长文本任务中效果不佳,增加了时间成本,无法有效解决长度偏差。

大语言模型的最大输出长度是否被过度宣传?

是的,大多数模型的实际生成能力低于其声称的最大输出长度,表现往往不如预期。

➡️

继续阅读