大型语言模型是优秀的攻击者:高效且隐蔽的文本后门攻击
原文中文,约200字,阅读约需1分钟。发表于: 。本研究解决了自然语言处理系统在外包数据收集过程中面临的文本后门攻击问题。提出了一种名为EST-Bad的新方法,利用大型语言模型,通过优化模型的内在缺陷、隐蔽地注入触发器和精心选择样本,显著提升了攻击效率和隐蔽性。研究结果表明,EST-Bad在各种文本分类器数据集上表现出竞争力的攻击性能与更高的隐蔽性。
本文研究了文本后门攻击对NLP系统的威胁,并提出了评估协议和开源工具包OpenBackdoor。文章探讨了攻击和防御模型的性能,并提出了聚类-based的防御策略CUBE。