我们提出了一种发现和应用稀疏特征电路的方法,用于解释语言模型的行为。稀疏特征电路基于细粒度单元,提供对预期之外的机制的详细理解,并在下游任务中非常有用。我们介绍了SHIFT,通过消除任务无关的特征,改善了分类器的泛化能力。最后,我们展示了一个无监督和可扩展的可解释性流程,用于自动发现模型行为中的稀疏特征电路。
完成下面两步后,将自动完成登录并继续当前操作。