小红花·文摘

该研究使用自洽性检查来测量大型语言模型的忠实度，并应用于三种类型的自我解释。研究发现，忠实度与任务和模型相关，不同任务和模型的解释方式也不同。该研究结果在提示变体方面具有稳健性。