本研究探讨了大型语言模型(LLM)如何解释其生成的模式,使用基于归因和基于提示的方法提取LLM原因,并发现基于提示的方法更好地对齐人工注释的原因。通过微调模型,无论是基于提示还是归因的方法都展现了更好的忠实度。该研究为更严格和公正地评估LLM原因提供了启示。
完成下面两步后,将自动完成登录并继续当前操作。