本研究提出了一种通用方法,通过非线性特征学习和跨层特征聚合,检测大型语言模型(LLM)内部知识的准确性和可用性。结果表明,该方法在识别虚假信息和不实内容方面表现优异,并能有效引导模型输出新概念。
完成下面两步后,将自动完成登录并继续当前操作。