CERT-ED: 编辑距离下的可验证健壮文本分类
原文中文,约300字,阅读约需1分钟。发表于: 。通过随机删除(Huang 等人,2023)的方式,我们提出了一种适用于自然语言分类的保护方法 CERT-ED,通过全面的实验,我们证明 CERT-ED 在准确性和证书的基数方面在 5 个数据集中优于现有的海明距离方法 RanMASK(Zeng 等人,2023),在包括 5 个直接攻击和 5 个迁移攻击的各种威胁模型下,我们的方法在 50 个设置中提高了 38 个实验鲁棒性。
研究人员提出了一种适用于自然语言分类的保护方法CERT-ED,通过随机删除的方式进行实验。实验证明,CERT-ED在准确性和证书的基数方面优于现有的海明距离方法RanMASK。在各种威胁模型下,CERT-ED提高了实验鲁棒性。