小红花·文摘

本研究提出了一种通用方法，通过非线性特征学习和跨层特征聚合，检测大型语言模型（LLM）内部知识的准确性和可用性。结果表明，该方法在识别虚假信息和不实内容方面表现优异，并能有效引导模型输出新概念。