小红花·文摘

本研究提出了一种新颖的词级对抗策略QA-Attack，通过同义词替换来误导问答模型，显著提高了对抗攻击的成功率。

Deceiving Question-Answering Models: A Hybrid Word-Level Adversarial Approach

BriefGPT - AI 论文速递 ·

本文提出了一种随机遮挡的可证明鲁棒防御方法，针对AGNEWS和SST2数据集的分类任务，证明鲁棒性超过50%。研究还介绍了针对补丁攻击的防御机制，通过块划分和多数投票减少恶意内容影响。结合随机平滑和差分隐私的DP-CERT框架显著提高了CIFAR10数据集的认证准确性。此外，针对自然语言处理中的同义词替换攻击，提出了基于随机平滑的认证鲁棒性方法，表现优异。

CERT-ED: 编辑距离下的可验证健壮文本分类

BriefGPT - AI 论文速递 ·

本研究比较了5种句子编码器在下游任务和语义特征捕捉方面的表现，发现多个句子编码器在下游任务上表现良好，但没有找到单一优胜者。进一步实验发现，Sentence-BERT和USE模型在复述标准上表现优越，LASER在同义词替换标准上表现最佳。所有句子编码器都未通过反义词替换和句子混乱的标准。结果表明，这些句子编码器在捕捉基本语义特征方面仍面临困境。

SenTest: 句子编码器鲁棒性评估

BriefGPT - AI 论文速递 ·