小红花·文摘

研究发现，大语言模型在生成特定长度的文本时表现不佳，尤其在长文本生成方面普遍低于预期。新基准测试集LIFEBENCH评估了26个模型，结果显示大多数模型在长文本任务中的长度指令遵循存在显著不足，生成质量明显下降。