小红花·文摘

本文介绍了自然语言处理中的对抗样本生成和去毒性方法，包括无监督方法、反事实公平性度量和基于强化学习的去毒性策略。这些方法提升了文本分类和毒性检测的性能，促进了文本生成的公平性，减少了偏见。

BriefGPT - AI 论文速递 ·

本文提出了一种基于对抗攻击的评估框架，介绍了新型对抗攻击方法DiffAttack，该方法利用扩散模型生成隐蔽扰动，从而提升攻击成功率。同时，研究了保护图像的方法和取消学习算法，以解决隐私保护问题。实验结果表明，所提方法在对抗样本生成和攻击转移性方面优于现有技术。

BriefGPT - AI 论文速递 ·

CGC是一种无监督图学习方法，基于对抗样本生成机制，避免False Negative问题，获得高质量的正负样本对。在多个数据集上与传统无监督学习方法和一些SOTA图对比学习方法相比，实现了令人满意的结果。

BriefGPT - AI 论文速递 ·