小红花·文摘

本文通过对BERT和RoBERTa中的attention heads进行定量和定性分析，发现一些头比基线更好地诱导了一些语法类型，且一些头充当了成分结构语法的代理。Fine-tuning任务后attention heads的诱导能力如何改变，结果表明句子意思相似性任务减少了上层的平均CGI能力，而自然语言推理任务增加了其能力。探讨了CGI能力与QQP和MNLI任务的自然语言理解能力之间的联系。