Imperio: 通过语言指导的后门攻击实现任意模型控制
原文中文,约200字,阅读约需1分钟。发表于: 。这篇论文通过使用语言理解能力提升后门攻击对抗技术,控制受害模型并产生期望输出,有效且具弹性地攻击复杂数据集。
本文提出了一种新的方法,将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示,而不是目标标签。该方法可以将后门引入广泛的下游任务中,无需先前知识。通过实验,证明了该方法对不同的任务和模型是普适的,但也带来了严重威胁。
这篇论文通过使用语言理解能力提升后门攻击对抗技术,控制受害模型并产生期望输出,有效且具弹性地攻击复杂数据集。
本文提出了一种新的方法,将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示,而不是目标标签。该方法可以将后门引入广泛的下游任务中,无需先前知识。通过实验,证明了该方法对不同的任务和模型是普适的,但也带来了严重威胁。