堆栈注意力的 Transformer

自然语言被认为是（轻度）上下文敏感的。为了解决 transformer 模型在建模无上下文语言任务方面的能力限制，我们提出了利用可微分的基于堆栈的注意力机制来增强它们的方法。我们的基于堆栈的注意力机制可以与任何基于 transformer 的语言模型结合，对模型添加了一定程度的可解释性。我们展示了我们的基于堆栈的注意力机制的加入使得 transformer 模型能够建模一些，但不是全部确定性的无上下文语言。

本文提出了一种利用可微分的基于堆栈的注意力机制来增强transformer模型在无上下文语言任务中的建模能力的方法。通过添加基于堆栈的注意力机制，可以提高模型的可解释性，并能够建模一些但不是全部确定性的无上下文语言。