小红花·文摘

该论文介绍了HalluQA基准，用于评估中文大型语言模型中的幻觉现象。HalluQA包含450个对抗性问题，覆盖多个领域，考虑了中国的历史文化和社会现象。实验发现18个模型的非幻觉率低于50%。研究还分析了不同类型模型中主要类型的幻觉及其原因，并讨论了不同类型模型应优先考虑的幻觉类型。