本文介绍了自然语言处理中的对抗样本生成和去毒性方法,包括无监督方法、反事实公平性度量和基于强化学习的去毒性策略。这些方法提升了文本分类和毒性检测的性能,促进了文本生成的公平性,减少了偏见。
本文提出了一种基于对抗攻击的评估框架,介绍了新型对抗攻击方法DiffAttack,该方法利用扩散模型生成隐蔽扰动,从而提升攻击成功率。同时,研究了保护图像的方法和取消学习算法,以解决隐私保护问题。实验结果表明,所提方法在对抗样本生成和攻击转移性方面优于现有技术。
CGC是一种无监督图学习方法,基于对抗样本生成机制,避免False Negative问题,获得高质量的正负样本对。在多个数据集上与传统无监督学习方法和一些SOTA图对比学习方法相比,实现了令人满意的结果。
完成下面两步后,将自动完成登录并继续当前操作。