量子位 ·

基准测试揭秘大模型“字数危机”：26个模型长文本生成普遍拉胯，最大输出长度过度宣传

💡 原文中文，约5500字，阅读约需13分钟。

📝

内容提要

研究发现，大语言模型在生成特定长度的文本时表现不佳，尤其在长文本生成方面普遍低于预期。新基准测试集LIFEBENCH评估了26个模型，结果显示大多数模型在长文本任务中的长度指令遵循存在显著不足，生成质量明显下降。

🎯

关键要点

大语言模型在生成特定长度文本时表现不佳，尤其是长文本生成。
新基准测试集LIFEBENCH评估了26个模型，揭示了它们在长度指令遵循方面的不足。
LIFEBENCH设计了多样化的数据集，涵盖多种任务类型和语言。
模型在长度指令“等于”下表现最差，23个模型的长度评分低于60分。
长文本生成任务中，所有模型的长度评分普遍低于40分，成为最大挑战。
模型在中文任务中的表现普遍劣于英文任务，且存在过度生成现象。
大多数模型的实际生成能力低于其声称的最大输出长度。
模型遵循长度指令的三大瓶颈包括缺乏准确的长度感知能力、对输入长度的敏感性和懒惰生成策略。
动态校准方法在长文本任务中效果不佳，增加了时间成本。
模型在不同长度限制下的生成质量呈现起伏，短文本表现较好，中等长度表现最佳，长文本质量滑坡。
复杂格式的输出对模型生成造成额外挑战，尤其在长文本中。
EoS信号在长文本生成中表现异常，模型倾向于提前结束生成。
预训练和后训练的结合可以改善模型在长文本生成中的表现。

❓

延伸问答

大语言模型在长文本生成中表现如何？

大多数模型在长文本生成任务中的长度评分普遍低于40分，表现显著下降。

LIFEBENCH基准测试集的主要特点是什么？

LIFEBENCH设计了多样化的数据集，涵盖多种任务类型和语言，专注于评估模型在长度指令下的表现。

模型在遵循长度指令时存在哪些瓶颈？

主要瓶颈包括缺乏准确的长度感知能力、对输入长度的敏感性和懒惰生成策略。

哪些因素影响大语言模型的生成质量？

生成质量受任务类型、语言和输入长度等因素的显著影响，尤其在中文任务中表现较差。

动态校准方法在长文本任务中的效果如何？

动态校准方法在长文本任务中效果不佳，增加了时间成本，无法有效解决长度偏差。

大语言模型的最大输出长度是否被过度宣传？

是的，大多数模型的实际生成能力低于其声称的最大输出长度，表现往往不如预期。

🏷️

继续阅读

Miso Labs发布MisoTTS：一款拥有开放权重的80亿情感文本转语音模型
Miso Labs发布了MisoTTS，这是一款拥有80亿参数的文本转语音模型，采用残差矢量量化技术，能够根据文本和音频上下文生成富有表现力的语音。该模型...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
基于220种海洋细菌，科学家用基因组尺度模型重构异养微生物分类体系，挖出8类代谢菌群
研究揭示海洋异养微生物的代谢生态位，打破传统的富营养型与寡营养型二分法，提出8类代谢菌群。通过基因组分析，阐明其生长规律与资源竞争，推动全球碳循环研究，为...
微软MAI模型发布深度解读：前沿微调成企业AI护城河
微软在2026年推出的MAI系列模型标志着其从依赖OpenAI转向自建AI模型的战略转变。MAI模型涵盖推理、编码、图像和语音等多个领域，特别是通过“前沿...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
微软在Build大会发布七款MAI新模型：顶尖MAI-Thinking-1深度拆解
微软在Build大会上发布了七款新AI模型，特别是MAI-Thinking-1，展示了其完整的AI产业链。通过自研MAIA芯片和大量人类数据训练，微软实现...