BERT 模型中的注意力分数对 GLUE 基准上的句法和语义任务中的词类意识研究

原文约300字，阅读约需1分钟。发表于：。

本研究通过对 BERT 模型进行细调过程中，考察词汇类别对注意力分数的影响，进一步验证了重点语义信息的下游任务中注意力分数主要集中在内容词上的假设，并揭示了 BERT 层对特定词汇类别具有一致偏好的存在。

本文通过对BERT和RoBERTa中的attention heads进行定量和定性分析，发现一些头比基线更好地诱导了一些语法类型，且一些头充当了成分结构语法的代理。Fine-tuning任务后attention heads的诱导能力如何改变，结果表明句子意思相似性任务减少了上层的平均CGI能力，而自然语言推理任务增加了其能力。探讨了CGI能力与QQP和MNLI任务的自然语言理解能力之间的联系。