大型语言模型的内在表示与幻觉
原文中文,约400字,阅读约需1分钟。发表于: 。本文研究了大型语言模型(LLMs)生成错误(即幻觉)的内在机制,发现其内部状态包含更多关于输出真实性的信息,这一信息集中在特定的标记上,能显著提升错误检测的性能。此外,研究表明,LLMs的错误编码并非普遍适用,而是多样化的,且内部编码和外部行为之间存在差异。该研究加深了我们对LLMs错误的理解,对未来改进错误分析和缓解策略具有重要指导意义。
大语言模型(LLM)生成结果优秀但易出错。研究通过分析内部激活判断真实性,方法有争议。使用高质量数据集发现:1. 真/假语句呈线性结构;2. 推断器可跨数据集推广;3. 干扰实验能改变真实性判断。提出质量均值推断法,提升推广性和相关性。