小红花·文摘

本研究探讨了大型语言模型（LLM）如何解释其生成的模式，使用基于归因和基于提示的方法提取LLM原因，并发现基于提示的方法更好地对齐人工注释的原因。通过微调模型，无论是基于提示还是归因的方法都展现了更好的忠实度。该研究为更严格和公正地评估LLM原因提供了启示。