该论文探讨了长篇问答任务中的评估和数据集构建挑战,提出新模型以提高答案的真实性和准确性。研究指出现有评估指标不足,建议关注答案的相关性、可靠性和简洁性。通过引入新数据集和检测方法,分析了大型语言模型生成的幻觉现象,并提出改进方案以减少幻觉,提高生成文本的准确性。
完成下面两步后,将自动完成登录并继续当前操作。