文章讨论了AI开发和使用中的技术保障措施,主要包括开发安全模型、部署监控和生态系统监测。尽管已有进展,但技术保障仍存在局限,无法完全防止有害行为。提出了对抗训练和“忘却学习”等方法以提高模型安全性,但仍需进一步研究。有效的监控和控制措施在实际应用中面临挑战,开发人员需不断更新以应对新攻击。
邓明扬与何恺明团队提出的新生成模型“漂移模型”将生成过程从推理阶段转移至训练阶段,实现单步生成。该模型通过“漂移场”机制对齐先验与真实数据分布,消除对抗训练的不稳定性,提升生成质量。在ImageNet基准测试中,漂移模型表现优异,刷新了单步生成纪录。
本研究提出了一种基于概念的无监督领域适应(CUDA)框架,旨在解决概念瓶颈模型在领域转移中的性能下降问题。通过对抗训练和松弛阈值,CUDA提高了模型的鲁棒性,实验结果表明其在真实数据集上的表现优于现有方法。
该研究探讨了对抗训练中的灾难性过拟合问题,提出了一种基于$l^p$范数的动态自适应训练方法,显著提高了模型在多步攻击下的鲁棒性,无需额外的正则化或噪声注入。
本研究提出了一种新方法VFAT-WS,旨在提高视频识别中的对抗训练效率和鲁棒性,通过时间频率增强和一致性正则化,训练速度提升近490%。
变分自编码器(VAE)在生成模型中存在模糊输出、潜在空间限制和模式平均等问题。生成对抗网络(GAN)通过生成器与判别器的对抗训练,克服了这些缺陷,能够生成更清晰、真实的数据,尤其在图像生成方面表现优越。
本研究揭示了集成图像提示适配器的文本到图像扩散模型中存在一种新型越狱攻击——劫持攻击。该攻击通过上传不可察觉的对抗样本,劫持用户的图像生成服务。实验验证了攻击的可行性,并探讨了结合对抗训练模型的解决方案。
本研究提出了一种增强标签的方法,以解决对抗训练中的分类性能不均衡问题。经过改进,模型的鲁棒性提高了53.50%,类别不平衡减少了5.73%,在干净样本和对抗样本的准确性上优于传统方法。
本研究提出了一种名为FLORAL的对抗训练策略,以防御机器学习模型中的标签中毒攻击。该方法基于支持向量机,通过双层优化框架显著提高模型的鲁棒性和分类能力,尤其在面对增加的攻击预算时表现出色。
本研究探讨了扩散概率模型在生成任务中的分布不匹配问题,并提出通过分布鲁棒优化(DRO)来解决。结果显示,对抗训练(AT)显著提高了模型的鲁棒性和生成性能。
本研究提出了FedEAT框架,旨在提高联邦大语言模型在数据异质性、恶意客户端和对抗攻击等方面的鲁棒性。通过对抗训练和几何中位数聚合,FedEAT有效提升了模型的鲁棒性,且性能损失最小。
本研究提出了一种自我纠正对抗训练框架LIMIT,旨在改善中文非自然文本的纠正效果。该方法有效模拟真实应用中的错误,减少传统训练中的偏差,并在多种错误纠正方面超越现有技术。
本研究提出了一种新的可持续自我进化对抗训练框架(SSEAT),旨在解决现有对抗训练模型在动态攻击下的不足。该框架通过持续的对抗防御和数据重放,有效学习多种对抗样本,并解决灾难性遗忘问题。实验结果表明,其防御性能和分类准确率优于其他模型。
本研究探讨了大型语言模型的越狱防御,特别是防止模型协助制造炸弹的行为。现有的防御策略如安全训练和对抗训练存在局限性。我们提出了一种新的转录分类器方法,测试结果优于基线防御,但仍面临挑战,显示狭域越狱防御的复杂性。
本研究提出了一种新方法,针对缺乏人口统计信息的公平性问题,基于“$α$-大小最坏情况公平性”。通过重标定样本重要性和对抗训练,实验结果表明该方法在公平性测试中表现优异。
生成式AI技术包括生成式对抗网络和扩散模型,攻击可分为模型投毒和隐私泄露,分别发生在训练和推理阶段。攻击者通过控制训练数据和查询权限实施攻击。安全措施包括对抗训练和输入过滤。随着技术进步,安全问题日益严重,需加强防护。
本文提出了一种新的稳定对抗训练框架SCAT,旨在提升自监督单目深度估计模型的泛化能力。通过对抗数据增强和优化网络结构,实验结果表明该方法在五个基准测试中表现优异。
本研究提出了一种基于对齐的对抗训练方法(ABAT),旨在解决脑-机接口中电生理信号的安全性问题。通过对EEG数据进行对齐,显著提升了分类器的准确性和鲁棒性。
研究表明,类别间距离减小时,鲁棒公平性会恶化。为此,提出了“距离感知的公平对抗训练(DAFA)”方法,通过调整损失权重和对抗边界来改善鲁棒公平性。实验结果表明,该方法在鲁棒准确性方面优于现有方法。
本研究结合变分自编码器与对抗训练,解决了推荐系统中因用户历史日志导致的性别和年龄等受保护属性识别问题,从而提升了不同人群的公平性。实验结果表明,该方法优于单一属性消除。
完成下面两步后,将自动完成登录并继续当前操作。