利用局部内在维度表征大型语言模型生成的真实性
原文中文,约400字,阅读约需1分钟。发表于: 。我们研究了如何表征和预测由大型语言模型生成的文本的真实性,这在人类与语言模型之间建立信任的过程中起着关键作用。通过对四个问答数据集进行实验,我们提出的方法通过研究内部激活和量化语言模型激活的本地内在维度(LID)来证明其有效性。此外,我们还研究了语言模型中的内在维度及其与模型层、自回归语言建模和语言模型训练的关系,揭示了内在维度在理解语言模型中的潜力。
最近的研究发现,通过对大语言模型(LLM)的内部激活进行训练,可以推断其真实性。本研究详细研究了LLM对真实性的表示结构,并提出证据表明LLM线性地表示事实陈述的真实性或虚假性。同时,介绍了一种新技术,质量均值推断法,具有更好的推广性和与模型输出相关性。