迈向统一可解释性与控制性:通过干预进行评估

📝

内容提要

本研究针对大语言模型的可解释性和控制性之间的脱节问题,提出了干预作为可解释性的基础目标,并建立了成功标准来评估方法如何通过干预控制模型行为。研究结果表明,虽然当前方法可以进行干预,但在模型和特征间不一致,并且Lens方法在实现具体干预方面表现更佳,但干预往往会影响模型性能,强调了现有可解释性方法在实际控制应用中的不足。

➡️

继续阅读