小红花·文摘

大型语言模型的忠诚度测试通常只测量模型输出的自我一致性，而不是其内部工作的忠诚度。作者提出了一种新的测量方法，通过比较模型的输入贡献与答案预测和生成解释之间的一致性来更准确地衡量模型的忠诚度。