评估评估指标——幻觉检测的幻影

📝

内容提要

本研究针对语言模型中幻觉检测的可靠性问题,评估了现有评估指标在多样性和适用性上的不足。通过对六种幻觉检测指标在多个数据集和语言模型上的大规模实证评估,发现当前指标与人工判断不一致且存在局限,尤其在参数扩展过程中的表现不稳定。同时,基于GPT-4的评估方法显示出最佳效果,提出了需要发展更强健的评估指标以有效理解和量化幻觉的必要性。

➡️

继续阅读