LLMs 的内部状态保持了幻觉检测的能力
原文中文,约400字,阅读约需1分钟。发表于: 。探索 LLM 内部状态中保留的密集语义信息,提出了一种称为 INSIDE 的方法,以更好地评估回答的自我一致性。此外,还探索了一种测试时间特征剪裁方法,以减少内部状态中的极端激活,从而减少自信生成并有助于检测过度自信的幻觉。在数个流行的 LLMs 和问答基准测试上进行了大量实验和消融研究,展示了我们提出方法的有效性。
该研究提出了一种审计方法,用于检测大型语言模型中的异常模式,并能传播到下游任务。研究结果表明,BERT在编码幻觉方面能力有限,而OPT则能够编码幻觉信息。该方法在没有暴露于虚假陈述的情况下,表现出与完全监督的离群样本分类器相当的性能。