鲁棒性一致的对抗训练用于安全机器学习模型更新
原文中文,约300字,阅读约需1分钟。发表于: 。我们展示了机器学习模型的周期性更新可能导致负面翻转,进而影响模型的安全性和性能,为此我们提出了 robustness-congruent adversarial training 方法用于解决这个问题。实验证明,我们的方法可以有效降低负面翻转问题,提高模型的准确性和鲁棒性。
本文介绍了一种名为“双梯度投影”的方法,用于解决机器学习系统在学习新任务时容易忘记先前的对抗鲁棒性的问题。该方法通过将权重更新的梯度正交投影到两个关键子空间上,实现连续鲁棒学习。实验结果表明,该方法有效地保持了连续鲁棒性,并对抗强对抗攻击的效果优于其他方法。