小红花·文摘

本文提出了一种随机遮挡的可证明鲁棒防御方法，针对AGNEWS和SST2数据集的分类任务，证明鲁棒性超过50%。研究还介绍了针对补丁攻击的防御机制，通过块划分和多数投票减少恶意内容影响。结合随机平滑和差分隐私的DP-CERT框架显著提高了CIFAR10数据集的认证准确性。此外，针对自然语言处理中的同义词替换攻击，提出了基于随机平滑的认证鲁棒性方法，表现优异。