小红花·文摘

本文探讨大型语言模型（LLMs）的忠诚度评估，提出了一种基于自我一致性的测量方法CC-SHAP，强调模型输出的自我一致性与内部工作的重要性。通过反事实输入编辑器和生成的自然语言解释（NLEs）重建输入，评估模型的忠实度。研究发现模型大小与忠实度之间存在复杂关系，并提出生成解释框架xLLM以提高解释质量。