小红花·文摘

【公益译文】2026年国际AI安全报告（六）

绿盟科技技术博客 ·

邓明扬与何恺明团队提出的新生成模型“漂移模型”将生成过程从推理阶段转移至训练阶段，实现单步生成。该模型通过“漂移场”机制对齐先验与真实数据分布，消除对抗训练的不稳定性，提升生成质量。在ImageNet基准测试中，漂移模型表现优异，刷新了单步生成纪录。

邓明扬一作论文改写生成范式！何恺明也署名了

量子位 ·

本研究提出了一种基于概念的无监督领域适应（CUDA）框架，旨在解决概念瓶颈模型在领域转移中的性能下降问题。通过对抗训练和松弛阈值，CUDA提高了模型的鲁棒性，实验结果表明其在真实数据集上的表现优于现有方法。

Concept-Based Unsupervised Domain Adaptation

BriefGPT - AI 论文速递 ·

该研究探讨了对抗训练中的灾难性过拟合问题，提出了一种基于$l^p$范数的动态自适应训练方法，显著提高了模型在多步攻击下的鲁棒性，无需额外的正则化或噪声注入。

Catastrophic Overfitting, Entropy Gap, and Participation Ratio: A Noiseless $l^p$ Norm Solution for Fast Adversarial Training

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法VFAT-WS，旨在提高视频识别中的对抗训练效率和鲁棒性，通过时间频率增强和一致性正则化，训练速度提升近490%。

Fast Adversarial Training for Video Based on Weak-to-Strong Spatio-Temporal Consistency in the Frequency Domain

BriefGPT - AI 论文速递 ·

生成对抗网络 4 : GAN

DEV Community ·

本研究揭示了集成图像提示适配器的文本到图像扩散模型中存在一种新型越狱攻击——劫持攻击。该攻击通过上传不可察觉的对抗样本，劫持用户的图像生成服务。实验验证了攻击的可行性，并探讨了结合对抗训练模型的解决方案。

Mind the Trojan Horse: Image Prompt Adapter Facilitating Scalable and Deceptive Jailbreaking

BriefGPT - AI 论文速递 ·

本研究提出了一种增强标签的方法，以解决对抗训练中的分类性能不均衡问题。经过改进，模型的鲁棒性提高了53.50%，类别不平衡减少了5.73%，在干净样本和对抗样本的准确性上优于传统方法。

Narrowing the Gap in Class Robustness in Adversarial Training

BriefGPT - AI 论文速递 ·

本研究提出了一种名为FLORAL的对抗训练策略，以防御机器学习模型中的标签中毒攻击。该方法基于支持向量机，通过双层优化框架显著提高模型的鲁棒性和分类能力，尤其在面对增加的攻击预算时表现出色。

Adversarial Training for Defense Against Label Poisoning Attacks

BriefGPT - AI 论文速递 ·

本研究探讨了扩散概率模型在生成任务中的分布不匹配问题，并提出通过分布鲁棒优化（DRO）来解决。结果显示，对抗训练（AT）显著提高了模型的鲁棒性和生成性能。

Improved Diffusion-based Generative Model with Enhanced Adversarial Robustness

BriefGPT - AI 论文速递 ·

本研究提出了FedEAT框架，旨在提高联邦大语言模型在数据异质性、恶意客户端和对抗攻击等方面的鲁棒性。通过对抗训练和几何中位数聚合，FedEAT有效提升了模型的鲁棒性，且性能损失最小。

FedEAT: A Robustness Optimization Framework for Federated Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种自我纠正对抗训练框架LIMIT，旨在改善中文非自然文本的纠正效果。该方法有效模拟真实应用中的错误，减少传统训练中的偏差，并在多种错误纠正方面超越现有技术。

Learning from Mistakes: Self-Correcting Adversarial Training for Chinese Unnatural Text Correction

BriefGPT - AI 论文速递 ·

本研究提出了一种新的可持续自我进化对抗训练框架（SSEAT），旨在解决现有对抗训练模型在动态攻击下的不足。该框架通过持续的对抗防御和数据重放，有效学习多种对抗样本，并解决灾难性遗忘问题。实验结果表明，其防御性能和分类准确率优于其他模型。

Sustainable Self-evolution Adversarial Training

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型的越狱防御，特别是防止模型协助制造炸弹的行为。现有的防御策略如安全训练和对抗训练存在局限性。我们提出了一种新的转录分类器方法，测试结果优于基线防御，但仍面临挑战，显示狭域越狱防御的复杂性。

Jailbreak Defense in a Narrow Domain: Limitations of Existing Methods and a New Transcript-Classifier Approach

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，针对缺乏人口统计信息的公平性问题，基于“$α$-大小最坏情况公平性”。通过重标定样本重要性和对抗训练，实验结果表明该方法在公平性测试中表现优异。

偏见与公平：通过内在重标定改善$α$-大小最坏情况公平性

BriefGPT - AI 论文速递 ·

生成式AI技术包括生成式对抗网络和扩散模型，攻击可分为模型投毒和隐私泄露，分别发生在训练和推理阶段。攻击者通过控制训练数据和查询权限实施攻击。安全措施包括对抗训练和输入过滤。随着技术进步，安全问题日益严重，需加强防护。

对抗式机器学习攻击与缓解措施分类及术语（下）

绿盟科技技术博客 ·

本文提出了一种新的稳定对抗训练框架SCAT，旨在提升自监督单目深度估计模型的泛化能力。通过对抗数据增强和优化网络结构，实验结果表明该方法在五个基准测试中表现优异。

通过稳定对抗训练改善自监督单目深度估计的领域泛化能力

BriefGPT - AI 论文速递 ·

本研究提出了一种基于对齐的对抗训练方法（ABAT），旨在解决脑-机接口中电生理信号的安全性问题。通过对EEG数据进行对齐，显著提升了分类器的准确性和鲁棒性。

基于对齐的对抗训练（ABAT）提升EEG基础BCIs的鲁棒性和准确性

BriefGPT - AI 论文速递 ·

研究表明，类别间距离减小时，鲁棒公平性会恶化。为此，提出了“距离感知的公平对抗训练（DAFA）”方法，通过调整损失权重和对抗边界来改善鲁棒公平性。实验结果表明，该方法在鲁棒准确性方面优于现有方法。

公平目标对抗训练：通过有针对性的对抗训练提升模型公平性

BriefGPT - AI 论文速递 ·

本研究结合变分自编码器与对抗训练，解决了推荐系统中因用户历史日志导致的性别和年龄等受保护属性识别问题，从而提升了不同人群的公平性。实验结果表明，该方法优于单一属性消除。

基于对抗训练的变分自编码推荐系统中多个受保护用户属性的同时消除

BriefGPT - AI 论文速递 ·