小红花·文摘

大语言模型（LLM）生成结果优秀但易出错。研究通过分析内部激活判断真实性，方法有争议。使用高质量数据集发现：1. 真/假语句呈线性结构；2. 推断器可跨数据集推广；3. 干扰实验能改变真实性判断。提出质量均值推断法，提升推广性和相关性。