BriefGPT - AI 论文速递 ·

CR-UTP: 通用文本扰动的认证鲁棒性

💡 原文中文，约1300字，阅读约需3分钟。

📝

内容提要

本文介绍了提高机器学习模型对抗性鲁棒性的方法，包括CITRUS、Text-CRS和APT等。这些方法利用随机平滑、上下文增强和对比学习等技术，显著提升了模型在噪声输入和对抗攻击下的准确性和鲁棒性，展示了在自然语言处理和文本生成任务中的应用潜力。

🎯

CITRUS方法通过广泛评估，显示在标准准确性方面提升高达10.3%，并在实际应用中实现最佳认证UAP准确性。
Text-CRS是基于随机平滑的框架，显著提升自然语言处理中的文本准确性，特别是在单词级对抗操作中。
UniCR框架能够逼近任何输入在任何分类器中针对任何ℓp扰动的鲁棒性认证，研究了机器学习分类器的对抗性扰动。
Context-Enhanced Reconstruction（CER）方法通过引入人造干扰词和更好的上下文表示，提高神经机器翻译在噪音输入下的稳健性。
对抗提示调优（APT）通过向提示中添加学习到的单词，显著提高视觉语言模型的准确性和鲁棒性，分别提升13%和8.5%。
随机遮挡的可证明鲁棒防御方法在多个数据集上表现优于最近提出的防御方法，证明鲁棒性超过50%。
基于对比学习的UTP方法有效弥合预训练和微调阶段的输入差距，提高表和文本的对齐精度。
新型通用概率认证方法基于Chernoff-Cramer Bounds，实验结果证明其对语义扰动具有防御能力。
Uniform Complexity for Text Generation (UCTG)挑战现有模型生成与输入相对应的均匀复杂度文本，提出了指导语言模型处理此挑战的方法。
通过使用字符串转换语言扩展鲁棒性证明的方法，成功训练出比现有技术更鲁棒的模型。

❓

CITRUS方法在标准准确性方面提升高达10.3%，并在实际应用中实现最佳认证UAP准确性。

Text-CRS基于随机平滑的框架，显著提升自然语言处理中的文本准确性，特别是在单词级对抗操作中。

APT通过向提示中添加学习到的单词，显著提高视觉语言模型的准确性和鲁棒性，分别提升13%和8.5%。

该方法通过引入人造干扰词和更好的上下文表示，提高神经机器翻译在噪音输入下的稳健性。

UTP方法基于对比学习，有效弥合了预训练和微调阶段的输入差距，提高表和文本的对齐精度。

该方法基于Chernoff-Cramer Bounds，实验结果证明其对语义扰动具有防御能力。

🏷️