堆栈注意力的 Transformer
原文中文,约300字,阅读约需1分钟。发表于: 。自然语言被认为是(轻度)上下文敏感的。为了解决 transformer 模型在建模无上下文语言任务方面的能力限制,我们提出了利用可微分的基于堆栈的注意力机制来增强它们的方法。我们的基于堆栈的注意力机制可以与任何基于 transformer 的语言模型结合,对模型添加了一定程度的可解释性。我们展示了我们的基于堆栈的注意力机制的加入使得 transformer 模型能够建模一些,但不是全部确定性的无上下文语言。
本文提出了一种利用可微分的基于堆栈的注意力机制来增强transformer模型在无上下文语言任务中的建模能力的方法。通过添加基于堆栈的注意力机制,可以提高模型的可解释性,并能够建模一些但不是全部确定性的无上下文语言。