文章讨论了AI开发和使用中的技术保障措施,主要包括开发安全模型、部署监控和生态系统监测。尽管已有进展,但技术保障仍存在局限,无法完全防止有害行为。提出了对抗训练和“忘却学习”等方法以提高模型安全性,但仍需进一步研究。有效的监控和控制措施在实际应用中面临挑战,开发人员需不断更新以应对新攻击。
邓明扬与何恺明团队提出的新生成模型“漂移模型”将生成过程从推理阶段转移至训练阶段,实现单步生成。该模型通过“漂移场”机制对齐先验与真实数据分布,消除对抗训练的不稳定性,提升生成质量。在ImageNet基准测试中,漂移模型表现优异,刷新了单步生成纪录。
本研究提出了一种基于概念的无监督领域适应(CUDA)框架,旨在解决概念瓶颈模型在领域转移中的性能下降问题。通过对抗训练和松弛阈值,CUDA提高了模型的鲁棒性,实验结果表明其在真实数据集上的表现优于现有方法。
该研究探讨了对抗训练中的灾难性过拟合问题,提出了一种基于$l^p$范数的动态自适应训练方法,显著提高了模型在多步攻击下的鲁棒性,无需额外的正则化或噪声注入。
本研究提出了一种新方法VFAT-WS,旨在提高视频识别中的对抗训练效率和鲁棒性,通过时间频率增强和一致性正则化,训练速度提升近490%。
变分自编码器(VAE)在生成模型中存在模糊输出、潜在空间限制和模式平均等问题。生成对抗网络(GAN)通过生成器与判别器的对抗训练,克服了这些缺陷,能够生成更清晰、真实的数据,尤其在图像生成方面表现优越。
本研究揭示了集成图像提示适配器的文本到图像扩散模型中存在一种新型越狱攻击——劫持攻击。该攻击通过上传不可察觉的对抗样本,劫持用户的图像生成服务。实验验证了攻击的可行性,并探讨了结合对抗训练模型的解决方案。
本研究提出了一种增强标签的方法,以解决对抗训练中的分类性能不均衡问题。经过改进,模型的鲁棒性提高了53.50%,类别不平衡减少了5.73%,在干净样本和对抗样本的准确性上优于传统方法。
本研究提出了一种名为FLORAL的对抗训练策略,以防御机器学习模型中的标签中毒攻击。该方法基于支持向量机,通过双层优化框架显著提高模型的鲁棒性和分类能力,尤其在面对增加的攻击预算时表现出色。
本研究探讨了扩散概率模型在生成任务中的分布不匹配问题,并提出通过分布鲁棒优化(DRO)来解决。结果显示,对抗训练(AT)显著提高了模型的鲁棒性和生成性能。
本研究提出了FedEAT框架,旨在提高联邦大语言模型在数据异质性、恶意客户端和对抗攻击等方面的鲁棒性。通过对抗训练和几何中位数聚合,FedEAT有效提升了模型的鲁棒性,且性能损失最小。
本研究提出了一种自我纠正对抗训练框架LIMIT,旨在改善中文非自然文本的纠正效果。该方法有效模拟真实应用中的错误,减少传统训练中的偏差,并在多种错误纠正方面超越现有技术。
本研究提出了一种新的可持续自我进化对抗训练框架(SSEAT),旨在解决现有对抗训练模型在动态攻击下的不足。该框架通过持续的对抗防御和数据重放,有效学习多种对抗样本,并解决灾难性遗忘问题。实验结果表明,其防御性能和分类准确率优于其他模型。
本研究探讨了大型语言模型的越狱防御,特别是防止模型协助制造炸弹的行为。现有的防御策略如安全训练和对抗训练存在局限性。我们提出了一种新的转录分类器方法,测试结果优于基线防御,但仍面临挑战,显示狭域越狱防御的复杂性。
本研究提出了一种不确定性感知的分布式对抗训练方法,以增强深度学习模型对抗样本的鲁棒性。该方法通过利用对抗样本的统计信息和不确定性估计,提高了对抗样本的多样性,实验结果表明其在对抗鲁棒性和自然性能方面表现优异。
生成式AI技术包括生成式对抗网络和扩散模型,攻击可分为模型投毒和隐私泄露,分别发生在训练和推理阶段。攻击者通过控制训练数据和查询权限实施攻击。安全措施包括对抗训练和输入过滤。随着技术进步,安全问题日益严重,需加强防护。
本研究提出了一种基于对齐的对抗训练(ABAT)方法,旨在提高电生理信号(EEG)在脑-机接口(BCI)中的鲁棒性和准确性。通过对EEG数据进行对齐,减少数据分布的不一致性,从而显著提升模型的分类性能。实验结果验证了该方法在多个EEG数据集上的有效性。
本文探讨了一种结合背景知识的对抗性规范化神经NLI模型,研究表明该模型在对抗性数据集上显著提高了预测准确性,并减少了背景知识的违反。对抗训练机制增强了模型的鲁棒性,改善了自然语言推理任务的表现。
本研究提出了一种结合变分自编码器和对抗训练的方法,旨在同时消除推荐系统中的多个受保护用户属性(如性别和年龄),以解决公平性和隐私问题。实验结果表明,该方法在减少人口统计学偏见和提升匿名性方面优于传统的单一属性消除方法。
AdvUnlearn框架结合对抗训练与概念擦除技术,增强了扩散模型在概念擦除任务中的鲁棒性。通过优化文本编码器和引入保留效用正则化,成功抵御对抗性提示攻击,同时保持高质量图像生成。实验结果表明,AdvUnlearn在多种场景下表现优异,为生成模型的安全性提供了新思路。
完成下面两步后,将自动完成登录并继续当前操作。