本文通过对BERT和RoBERTa中的attention heads进行定量和定性分析,发现一些头比基线更好地诱导了一些语法类型,且一些头充当了成分结构语法的代理。Fine-tuning任务后attention heads的诱导能力如何改变,结果表明句子意思相似性任务减少了上层的平均CGI能力,而自然语言推理任务增加了其能力。探讨了CGI能力与QQP和MNLI任务的自然语言理解能力之间的联系。
完成下面两步后,将自动完成登录并继续当前操作。