BERT 模型中的注意力分数对 GLUE 基准上的句法和语义任务中的词类意识研究

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文通过对BERT和RoBERTa中的attention heads进行定量和定性分析,发现一些头比基线更好地诱导了一些语法类型,且一些头充当了成分结构语法的代理。Fine-tuning任务后attention heads的诱导能力如何改变,结果表明句子意思相似性任务减少了上层的平均CGI能力,而自然语言推理任务增加了其能力。探讨了CGI能力与QQP和MNLI任务的自然语言理解能力之间的联系。

🎯

关键要点

  • 对 BERT 和 RoBERTa 中的 attention heads 进行定量和定性分析。
  • 采用句法距离方法提取隐式成分结构语法。
  • 一些头比基线更好地诱导语法类型,且充当成分结构语法的代理。
  • Fine-tuning 后 attention heads 的诱导能力发生变化。
  • 句子意思相似性任务减少了上层的平均 CGI 能力。
  • 自然语言推理任务增加了上层的平均 CGI 能力。
  • 探讨了 CGI 能力与 QQP 和 MNLI 任务的自然语言理解能力之间的联系。
➡️

继续阅读