小红花·文摘

本研究评估了大型语言模型（LLMs）的生成输出质量，发现高质量输出与记忆文本比例相关。提出了新的评估框架和基准测试，分析了模型在多轮多语种指令执行中的能力及格式偏见问题，强调了提示设计的重要性，并探讨了长文本摘要中的忠实性与位置信息偏差。