小红花·文摘

本研究使用Transformer模型和大型语料库提高句法知识表征，通过多任务学习进行数据操纵或使用专用模型组件。结果显示，采用线性树而不是真实依赖的增益并非来自语言知识增加，而是由于自注意矩阵上的简单正则化效应。