研究发现,大语言模型在生成特定长度的文本时表现不佳,尤其在长文本生成方面普遍低于预期。新基准测试集LIFEBENCH评估了26个模型,结果显示大多数模型在长文本任务中的长度指令遵循存在显著不足,生成质量明显下降。
完成下面两步后,将自动完成登录并继续当前操作。