大型语言模型的忠诚度测试通常只测量模型输出的自我一致性,而不是其内部工作的忠诚度。作者提出了一种新的测量方法,通过比较模型的输入贡献与答案预测和生成解释之间的一致性来更准确地衡量模型的忠诚度。
完成下面两步后,将自动完成登录并继续当前操作。