层叠注意力:提高 Transformer 模型对层次模式建模的能力
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了堆栈注意力:一种集成堆栈的注意力操作符,其灵感来源于堆栈与上下文无关语言(CFLs)的理论联系,以解决标准注意力无法识别某些句法结构的局限性。我们提出了两种变种:一种与确定性下推自动机(PDAs)相关,一种基于非确定性 PDAs,使得 transformers 能够识别任意 CFLs。我们证明,具有堆栈注意力的 transformers 在学习 CFLs...
该文介绍了堆栈注意力,一种集成堆栈的注意力操作符,以解决标准注意力无法识别某些句法结构的局限性。该方法有两种变种,能够使得 transformers 能够识别任意 CFLs。该方法在学习 CFLs 方面非常有效,并在自然语言建模中更加有效。