本文探讨大型语言模型(LLMs)的忠诚度评估,提出了一种基于自我一致性的测量方法CC-SHAP,强调模型输出的自我一致性与内部工作的重要性。通过反事实输入编辑器和生成的自然语言解释(NLEs)重建输入,评估模型的忠实度。研究发现模型大小与忠实度之间存在复杂关系,并提出生成解释框架xLLM以提高解释质量。
完成下面两步后,将自动完成登录并继续当前操作。