朝向可信的自然语言解释:使用大语言模型中的激活修补的研究
📝
内容提要
本研究解决了自然语言解释(NLE)的可信性问题,指出现有评估方法存在不全面和设计不当的问题。我们提出了一种新的度量指标——因果可信度,通过激活修补技术量化解释与模型输出间的因果关联一致性,实验证明经过对齐调优的模型能够生成更可信的解释,表明这一方法比现有测试更具优势。
➡️
本研究解决了自然语言解释(NLE)的可信性问题,指出现有评估方法存在不全面和设计不当的问题。我们提出了一种新的度量指标——因果可信度,通过激活修补技术量化解释与模型输出间的因果关联一致性,实验证明经过对齐调优的模型能够生成更可信的解释,表明这一方法比现有测试更具优势。