利用动态注意力提升基于 Transformer 的大型语言模型的鲁棒性

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究介绍了一种使用拓扑数据分析的文本分类器,该模型在区分垃圾邮件和普通邮件等任务上表现出优于BERT基线的性能,并减少了BERT注意力头的数量。拓扑模型在对抗性攻击方面表现出更高的鲁棒性,是NLP领域中首次使用基于拓扑的模型来应对对抗性攻击。

🎯

关键要点

  • 本研究介绍了一种使用拓扑数据分析的文本分类器。
  • 该模型使用 BERT 的关注映射转换为关注图作为唯一输入。
  • 模型能够区分垃圾邮件和普通邮件,并在某些任务上优于 BERT 基线。
  • 提出了一种新方法来减少拓扑分类器中 BERT 注意力头的数量。
  • 拓扑模型在对抗性攻击方面表现出更高的鲁棒性。
  • 这是 NLP 领域首次使用基于拓扑的模型应对对抗性攻击。
➡️

继续阅读