依存变换语法:将依存结构整合到 Transformer 语言模型中
原文中文,约400字,阅读约需1分钟。发表于: 。通过同时建模句法树和句子,句法变换器语言模型旨在通过实现更好的泛化效果。在向变换器中添加基于从属关系的结构的既有工作之后,我们引入了 Dependency Transformer Grammars(DTGs),这是一种具有明确的基于从属关系的归纳偏见的变换器语言模型。DTGs...
通过同时建模句法树和句子,句法变换器语言模型旨在实现更好的泛化效果。引入了Dependency Transformer Grammars(DTGs),通过修改注意力掩码模拟受约束注意力模式的从属转换系统,通过相对位置编码将堆栈信息整合进来,并通过令牌嵌入和操作嵌入的组合来增强从属弧表示。在以依赖树注释的句子数据集上训练时,DTGs在保持与变换器语言模型基线相当的困惑度的同时,实现了更好的泛化效果。DTGs还优于最近的基于从属的模型,表明从属关系可以更好地指导变换器语言模型。