充分利用您的模型:微调和应用预训练变换器的方法
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文对BERT、GPT-2和T5三种预训练语言模型进行了鲁棒性测试,发现GPT-2表现更好。丢失名词、动词或改变字符是最具影响力的扰动。这项研究揭示了基于Transformer的模型的弱点。
🎯
关键要点
- 本文对三种基于Transformer的预训练语言模型(BERT、GPT-2和T5)进行了鲁棒性测试。
- 研究比较了这些模型在多种输入扰动下的性能表现。
- 使用CKA和STIR两个度量衡量了预训练模型与微调模型在各层上的表示变化。
- GPT-2表现出更好的鲁棒性。
- 丢失名词、动词或改变字符是最具影响力的扰动。
- 这项研究揭示了基于Transformer的模型的扰动特异性弱点。
➡️