小红花·文摘

该论文探讨了长篇问答任务中的评估和数据集构建挑战，提出新模型以提高答案的真实性和准确性。研究指出现有评估指标不足，建议关注答案的相关性、可靠性和简洁性。通过引入新数据集和检测方法，分析了大型语言模型生成的幻觉现象，并提出改进方案以减少幻觉，提高生成文本的准确性。