充分利用您的模型:微调和应用预训练变换器的方法

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文对BERT、GPT-2和T5三种预训练语言模型进行了鲁棒性测试,发现GPT-2表现更好。丢失名词、动词或改变字符是最具影响力的扰动。这项研究揭示了基于Transformer的模型的弱点。

🎯

关键要点

  • 本文对三种基于Transformer的预训练语言模型(BERT、GPT-2和T5)进行了鲁棒性测试。
  • 研究比较了这些模型在多种输入扰动下的性能表现。
  • 使用CKA和STIR两个度量衡量了预训练模型与微调模型在各层上的表示变化。
  • GPT-2表现出更好的鲁棒性。
  • 丢失名词、动词或改变字符是最具影响力的扰动。
  • 这项研究揭示了基于Transformer的模型的扰动特异性弱点。
➡️

继续阅读