通过同时建模句法树和句子,句法变换器语言模型旨在实现更好的泛化效果。引入了Dependency Transformer Grammars(DTGs),通过修改注意力掩码模拟受约束注意力模式的从属转换系统,通过相对位置编码将堆栈信息整合进来,并通过令牌嵌入和操作嵌入的组合来增强从属弧表示。在以依赖树注释的句子数据集上训练时,DTGs在保持与变换器语言模型基线相当的困惑度的同时,实现了更好的泛化效果。DTGs还优于最近的基于从属的模型,表明从属关系可以更好地指导变换器语言模型。
完成下面两步后,将自动完成登录并继续当前操作。