本文提出了堆栈注意力,一种改进的注意力机制,旨在克服标准注意力在识别某些句法结构上的局限性。通过结合确定性和非确定性下推自动机,堆栈注意力使变换器能够有效学习上下文无关语言(CFLs),在自然语言建模和机器翻译中表现优异,尤其在参数预算受限的情况下更为有效。
该文介绍了堆栈注意力,一种集成堆栈的注意力操作符,以解决标准注意力无法识别某些句法结构的局限性。该方法有两种变种,能够使得 transformers 能够识别任意 CFLs。该方法在学习 CFLs 方面非常有效,并在自然语言建模中更加有效。
完成下面两步后,将自动完成登录并继续当前操作。