小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
【公益译文】2026年国际AI安全报告(六)

文章讨论了AI开发和使用中的技术保障措施,主要包括开发安全模型、部署监控和生态系统监测。尽管已有进展,但技术保障仍存在局限,无法完全防止有害行为。提出了对抗训练和“忘却学习”等方法以提高模型安全性,但仍需进一步研究。有效的监控和控制措施在实际应用中面临挑战,开发人员需不断更新以应对新攻击。

【公益译文】2026年国际AI安全报告(六)

绿盟科技技术博客
绿盟科技技术博客 · 2026-04-29T06:53:18Z

邓明扬与何恺明团队提出的新生成模型“漂移模型”将生成过程从推理阶段转移至训练阶段,实现单步生成。该模型通过“漂移场”机制对齐先验与真实数据分布,消除对抗训练的不稳定性,提升生成质量。在ImageNet基准测试中,漂移模型表现优异,刷新了单步生成纪录。

邓明扬一作论文改写生成范式!何恺明也署名了

量子位
量子位 · 2026-02-05T15:26:57Z

本研究提出了一种基于概念的无监督领域适应(CUDA)框架,旨在解决概念瓶颈模型在领域转移中的性能下降问题。通过对抗训练和松弛阈值,CUDA提高了模型的鲁棒性,实验结果表明其在真实数据集上的表现优于现有方法。

Concept-Based Unsupervised Domain Adaptation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

该研究探讨了对抗训练中的灾难性过拟合问题,提出了一种基于$l^p$范数的动态自适应训练方法,显著提高了模型在多步攻击下的鲁棒性,无需额外的正则化或噪声注入。

Catastrophic Overfitting, Entropy Gap, and Participation Ratio: A Noiseless $l^p$ Norm Solution for Fast Adversarial Training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z

本研究提出了一种新方法VFAT-WS,旨在提高视频识别中的对抗训练效率和鲁棒性,通过时间频率增强和一致性正则化,训练速度提升近490%。

Fast Adversarial Training for Video Based on Weak-to-Strong Spatio-Temporal Consistency in the Frequency Domain

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-21T00:00:00Z
生成对抗网络 4 : GAN

变分自编码器(VAE)在生成模型中存在模糊输出、潜在空间限制和模式平均等问题。生成对抗网络(GAN)通过生成器与判别器的对抗训练,克服了这些缺陷,能够生成更清晰、真实的数据,尤其在图像生成方面表现优越。

生成对抗网络 4 : GAN

DEV Community
DEV Community · 2025-04-20T01:19:40Z

本研究揭示了集成图像提示适配器的文本到图像扩散模型中存在一种新型越狱攻击——劫持攻击。该攻击通过上传不可察觉的对抗样本,劫持用户的图像生成服务。实验验证了攻击的可行性,并探讨了结合对抗训练模型的解决方案。

Mind the Trojan Horse: Image Prompt Adapter Facilitating Scalable and Deceptive Jailbreaking

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

本研究提出了一种增强标签的方法,以解决对抗训练中的分类性能不均衡问题。经过改进,模型的鲁棒性提高了53.50%,类别不平衡减少了5.73%,在干净样本和对抗样本的准确性上优于传统方法。

Narrowing the Gap in Class Robustness in Adversarial Training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出了一种名为FLORAL的对抗训练策略,以防御机器学习模型中的标签中毒攻击。该方法基于支持向量机,通过双层优化框架显著提高模型的鲁棒性和分类能力,尤其在面对增加的攻击预算时表现出色。

Adversarial Training for Defense Against Label Poisoning Attacks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z

本研究探讨了扩散概率模型在生成任务中的分布不匹配问题,并提出通过分布鲁棒优化(DRO)来解决。结果显示,对抗训练(AT)显著提高了模型的鲁棒性和生成性能。

Improved Diffusion-based Generative Model with Enhanced Adversarial Robustness

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z

本研究提出了FedEAT框架,旨在提高联邦大语言模型在数据异质性、恶意客户端和对抗攻击等方面的鲁棒性。通过对抗训练和几何中位数聚合,FedEAT有效提升了模型的鲁棒性,且性能损失最小。

FedEAT: A Robustness Optimization Framework for Federated Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出了一种自我纠正对抗训练框架LIMIT,旨在改善中文非自然文本的纠正效果。该方法有效模拟真实应用中的错误,减少传统训练中的偏差,并在多种错误纠正方面超越现有技术。

Learning from Mistakes: Self-Correcting Adversarial Training for Chinese Unnatural Text Correction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-23T00:00:00Z

本研究提出了一种新的可持续自我进化对抗训练框架(SSEAT),旨在解决现有对抗训练模型在动态攻击下的不足。该框架通过持续的对抗防御和数据重放,有效学习多种对抗样本,并解决灾难性遗忘问题。实验结果表明,其防御性能和分类准确率优于其他模型。

Sustainable Self-evolution Adversarial Training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-03T00:00:00Z

本研究探讨了大型语言模型的越狱防御,特别是防止模型协助制造炸弹的行为。现有的防御策略如安全训练和对抗训练存在局限性。我们提出了一种新的转录分类器方法,测试结果优于基线防御,但仍面临挑战,显示狭域越狱防御的复杂性。

Jailbreak Defense in a Narrow Domain: Limitations of Existing Methods and a New Transcript-Classifier Approach

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-03T00:00:00Z

本研究提出了一种不确定性感知的分布式对抗训练方法,以增强深度学习模型对抗样本的鲁棒性。该方法通过利用对抗样本的统计信息和不确定性估计,提高了对抗样本的多样性,实验结果表明其在对抗鲁棒性和自然性能方面表现优异。

Enhancing Adversarial Robustness via Uncertainty-Aware Distributional Adversarial Training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

生成式AI技术包括生成式对抗网络和扩散模型,攻击可分为模型投毒和隐私泄露,分别发生在训练和推理阶段。攻击者通过控制训练数据和查询权限实施攻击。安全措施包括对抗训练和输入过滤。随着技术进步,安全问题日益严重,需加强防护。

对抗式机器学习攻击与缓解措施分类及术语(下)

绿盟科技技术博客
绿盟科技技术博客 · 2024-11-04T09:11:31Z

本研究提出了一种基于对齐的对抗训练(ABAT)方法,旨在提高电生理信号(EEG)在脑-机接口(BCI)中的鲁棒性和准确性。通过对EEG数据进行对齐,减少数据分布的不一致性,从而显著提升模型的分类性能。实验结果验证了该方法在多个EEG数据集上的有效性。

Alignment-Based Adversarial Training (ABAT) for Enhancing the Robustness and Accuracy of EEG-Based BCIs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z

本文探讨了一种结合背景知识的对抗性规范化神经NLI模型,研究表明该模型在对抗性数据集上显著提高了预测准确性,并减少了背景知识的违反。对抗训练机制增强了模型的鲁棒性,改善了自然语言推理任务的表现。

利用小型对抗训练集教会语言模型区分相似细节

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本研究提出了一种结合变分自编码器和对抗训练的方法,旨在同时消除推荐系统中的多个受保护用户属性(如性别和年龄),以解决公平性和隐私问题。实验结果表明,该方法在减少人口统计学偏见和提升匿名性方面优于传统的单一属性消除方法。

Simultaneous Unlearning of Multiple Protected User Attributes in Variational Autoencoder Recommender Systems Using Adversarial Training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z
NeurIPS 2024 | 如何防御对抗性提示攻击?AdvUnlearn让图片生成风险骤降

AdvUnlearn框架结合对抗训练与概念擦除技术,增强了扩散模型在概念擦除任务中的鲁棒性。通过优化文本编码器和引入保留效用正则化,成功抵御对抗性提示攻击,同时保持高质量图像生成。实验结果表明,AdvUnlearn在多种场景下表现优异,为生成模型的安全性提供了新思路。

NeurIPS 2024 | 如何防御对抗性提示攻击?AdvUnlearn让图片生成风险骤降

机器之心
机器之心 · 2024-10-27T05:47:41Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码