小红花·文摘

我们提出了一种发现和应用稀疏特征电路的方法，用于解释语言模型的行为。稀疏特征电路基于细粒度单元，提供对预期之外的机制的详细理解，并在下游任务中非常有用。我们介绍了SHIFT，通过消除任务无关的特征，改善了分类器的泛化能力。最后，我们展示了一个无监督和可扩展的可解释性流程，用于自动发现模型行为中的稀疏特征电路。