位置知识是一切所需:面向操作员学习的位置感知变压器 (PiT)
本文提出了翻译不变的自注意力模型(TISA),通过考虑标记之间的相对位置,解决了现有语言模型的位置嵌入问题。实验结果显示,TISA在GLUE任务上的性能优于ALBERT模型。
原文中文,约200字,阅读约需1分钟。
本文提出了翻译不变的自注意力模型(TISA),通过考虑标记之间的相对位置,解决了现有语言模型的位置嵌入问题。实验结果显示,TISA在GLUE任务上的性能优于ALBERT模型。