小红花·文摘

大型语言模型在回答事实性问题方面很成功，但容易产生幻觉。通过推理动态的角度调查幻觉现象，识别查询相同三元知识但产生不同答案的实际问题。利用残差流到词汇空间的映射测量模式，揭示输出令牌概率在模型不同层深度上的动态差异。构建分类器准确检测幻觉预测，揭示产生幻觉的原因和预测时机。