BERT 模型中的注意力分数对 GLUE 基准上的句法和语义任务中的词类意识研究
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文通过对BERT和RoBERTa中的attention heads进行定量和定性分析,发现一些头比基线更好地诱导了一些语法类型,且一些头充当了成分结构语法的代理。Fine-tuning任务后attention heads的诱导能力如何改变,结果表明句子意思相似性任务减少了上层的平均CGI能力,而自然语言推理任务增加了其能力。探讨了CGI能力与QQP和MNLI任务的自然语言理解能力之间的联系。
🎯
关键要点
- 对 BERT 和 RoBERTa 中的 attention heads 进行定量和定性分析。
- 采用句法距离方法提取隐式成分结构语法。
- 一些头比基线更好地诱导语法类型,且充当成分结构语法的代理。
- Fine-tuning 后 attention heads 的诱导能力发生变化。
- 句子意思相似性任务减少了上层的平均 CGI 能力。
- 自然语言推理任务增加了上层的平均 CGI 能力。
- 探讨了 CGI 能力与 QQP 和 MNLI 任务的自然语言理解能力之间的联系。
🏷️
标签
➡️