本文提出了自动细粒度幻觉检测任务和涵盖六种层次定义的幻觉类型的分类法。通过新的基准测试,发现ChatGPT和Llama 2-Chat的输出中有60%和75%的幻觉,其中大多数属于未被充分研究的类别。FAVA在细粒度幻觉检测方面优于ChatGPT,提高了语言模型生成文本的准确性。
本论文介绍了HalluQA基准,用于评估中文大型语言模型中的幻觉现象。通过对24个模型进行实验,作者发现18个模型的非幻觉率低于50%,表明HalluQA具有很高的挑战性。作者还分析了不同类型模型中的幻觉类型及其原因,并讨论了不同类型模型应优先考虑的幻觉类型。
完成下面两步后,将自动完成登录并继续当前操作。