小红花·文摘

本研究质疑知识蒸馏的安全性，提出通过在蒸馏数据集中嵌入后门触发器的对抗样本进行后门攻击的方法。实验表明，该方法能够在不影响教师模型的情况下，成功影响学生模型，揭示了知识蒸馏中的安全漏洞。

How to Conduct Backdoor Attacks on Knowledge Distillation

BriefGPT - AI 论文速递 ·

本研究提出了一种查询无关视觉攻击（QAVA），旨在针对大规模视觉语言模型在视觉问答任务中的脆弱性，生成稳健的对抗样本，从而提高在未知问题下的攻击有效性和效率。

QAVA: Query-Agnostic Visual Attack on Large-Scale Vision-Language Models

BriefGPT - AI 论文速递 ·

本研究揭示了集成图像提示适配器的文本到图像扩散模型中存在一种新型越狱攻击——劫持攻击。该攻击通过上传不可察觉的对抗样本，劫持用户的图像生成服务。实验验证了攻击的可行性，并探讨了结合对抗训练模型的解决方案。

Mind the Trojan Horse: Image Prompt Adapter Facilitating Scalable and Deceptive Jailbreaking

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法AdvWT，通过利用物体自然损耗生成对抗样本，克服了现有方法的局限性。实验结果表明，AdvWT能够保持损伤外观的自然真实性，并有效误导深度神经网络。

对抗性磨损：利用自然损伤生成物理世界对抗样本

BriefGPT - AI 论文速递 ·

强化学习成帮凶，对抗攻击LLM有了新方法

机器之心 ·

本研究探讨了视觉基础模型的安全性，提出了一种通用框架，通过干扰特征表示生成对抗样本，揭示了基础模型在多种应用中的安全隐患。

Task-agnostic Attacks on Visual Foundation Models

BriefGPT - AI 论文速递 ·

本研究提出了一种IC2VQA跨模态攻击方法，旨在提高现代视频质量评估模型的对抗样本可转移性。通过在白箱图像质量评估模型中引入CLIP模块，实验结果表明，该方法在攻击黑箱VQA模型时的成功率显著提升，推动了稳健VQA度量的分析。

可转移的跨模态图像至视频攻击视频质量度量

BriefGPT - AI 论文速递 ·

视觉语言模型易受攻击？西安交大等提出基于扩散模型的对抗样本生成新方法

机器之心 ·

本研究提出了一种基于讽刺的对抗样本生成方法（IAE），旨在提高情感分析系统的安全性。该方法通过将简单句子转化为讽刺句子，挑战现有模型的鲁棒性，揭示其对讽刺语言的脆弱性，并表明人类在理解讽刺方面的优势。

IAE: Irony-based Adversarial Examples for Sentiment Analysis Systems

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，增强深度学习图像分类模型对抗样本的检测能力。通过生成多个检测器并随机选择，最终在ImageNet上实现了高检测率和低误报率。

Neural Fingerprints for Adversarial Attack Detection

BriefGPT - AI 论文速递 ·

本研究提出了一种不确定性感知的分布式对抗训练方法，以增强深度学习模型对抗样本的鲁棒性。该方法通过利用对抗样本的统计信息和不确定性估计，提高了对抗样本的多样性，实验结果表明其在对抗鲁棒性和自然性能方面表现优异。

Enhancing Adversarial Robustness via Uncertainty-Aware Distributional Adversarial Training

BriefGPT - AI 论文速递 ·

本文提出了一种名为LiDAttack的黑箱攻击方法，针对LiDAR传感器中的深度神经网络进行对抗样本攻击。该方法结合遗传算法和模拟退火策略，限制干扰点的位置和数量，适应动态变化。实验结果表明，LiDAttack在目标检测模型上的攻击成功率高达90%。

LiDAttack: A Robust Black-Box Attack on LiDAR-Based Object Detection

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过对抗演化三角形增强视觉语言预训练模型的对抗样本多样性，解决其在多模态对抗样本下的脆弱性。该方法显著提高了对抗样本的可转移性，并通过理论分析和实验验证了其优越性。

Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attacks

BriefGPT - AI 论文速递 ·

本文探讨了深度强化学习中的对抗攻击，比较了对抗样本与随机噪声攻击的有效性，并提出了一种新方法以降低攻击成功率。研究了随机噪声和FGSM扰动对攻击韧性的影响，提出“对抗风险”作为模型鲁棒性的目标，并发展了新的防御方法，如分层随机切换（HRS）和轻量级防御方法（RND），以提高对抗性和减少性能损失。

噪声的双刃剑：强化学习如何利用神经网络中的随机防御

BriefGPT - AI 论文速递 ·

本研究探讨了对抗样本如何欺骗分类器及其跨模型转移的问题，提出宽双层网络能够从对抗扰动中学习类别特征。研究表明，基于错误标签的对抗样本训练的分类器与基于正确标签的分类器预测一致，为对抗学习提供了理论支持。

Wide Two-Layer Networks Can Learn from Adversarial Perturbations

BriefGPT - AI 论文速递 ·

本文探讨了一种结合背景知识的对抗性规范化神经NLI模型，研究表明该模型在对抗性数据集上显著提高了预测准确性，并减少了背景知识的违反。对抗训练机制增强了模型的鲁棒性，改善了自然语言推理任务的表现。

利用小型对抗训练集教会语言模型区分相似细节

BriefGPT - AI 论文速递 ·

本文研究了针对野外物体探测器的物理对抗攻击，提出了多种伪装攻击方法，如UPC、FCA、DTA和ACTIVE等。这些方法通过优化纹理和生成对抗样本，显著提高了伪装效果，实验结果表明其优于现有技术。

卡车对抗伪装优化：欺骗物体检测器

BriefGPT - AI 论文速递 ·

本文研究了影响对抗样本传递性的因素，提出了多种增强传递性的方法，如方差降低攻击、GAMA和查询先验方法等。实验结果表明，这些方法在CIFAR和ImageNet数据集上显著提高了对抗攻击的可转移性和效率。此外，研究引入了TAA-Bench基准框架，为不同模型的比较分析提供了标准化平台。

GADT：通过梯度引导的对抗数据转换增强可转移对抗攻击

BriefGPT - AI 论文速递 ·

本文探讨了对抗样本在神经网络中的影响，强调专家集合可以提高系统的鲁棒性。研究表明，网络性能与对抗攻击的脆弱性相关，并提出了改进对抗鲁棒性的策略，如神经架构搜索和对抗数据增强。此外，提出了SCOOTER框架用于评估图像攻击的有效性，以促进人类评估的标准化。

戈利亚金的痛苦：双胞胎和对抗性脆弱性

BriefGPT - AI 论文速递 ·

本文研究了对抗样本的可迁移性，提出了通过集成对抗训练和多样化训练来增强模型鲁棒性的新方法。建立了TAA-Bench基准框架，以系统评估各种对抗性攻击方法，为未来研究提供参考。

理解可转移对抗攻击中的模型集成

BriefGPT - AI 论文速递 ·