该论文介绍了HalluQA基准,用于评估中文大型语言模型中的幻觉现象。HalluQA包含450个对抗性问题,覆盖多个领域,考虑了中国的历史文化和社会现象。实验发现18个模型的非幻觉率低于50%。研究还分析了不同类型模型中主要类型的幻觉及其原因,并讨论了不同类型模型应优先考虑的幻觉类型。
完成下面两步后,将自动完成登录并继续当前操作。