小红花·文摘

强化学习成帮凶，对抗攻击LLM有了新方法

机器之心 ·

本研究探讨了连续强化学习中的行动操控攻击，提出了一种名为LCBT的黑盒攻击算法，该算法利用蒙特卡洛树搜索以次线性成本高效引导智能体收敛至目标策略，显示出安全隐患和应用潜力。

Provably Efficient Action-Manipulation Attack Against Continuous Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了AdvWeb，一个针对VLM驱动网络代理安全性问题的黑盒攻击框架。通过生成对抗性提示，成功欺骗代理执行错误操作，揭示了其关键脆弱性，强调了开发更可靠网络代理的必要性。

AdvWeb: A Controllable Black-Box Attack Framework for VLM-Driven Network Proxies

BriefGPT - AI 论文速递 ·

本研究探讨了机器学习在对抗性攻击中的脆弱性，并提出通过防御蒸馏和转移学习等方法增强模型的鲁棒性。研究结果表明，黑盒攻击对深度学习模型的影响显著，因此需要开发有效的防御技术以提高安全性。

模型模仿攻击：可证明可迁移的对抗示例的知识蒸馏

BriefGPT - AI 论文速递 ·

本文介绍了DPatch，一种针对现代计算机视觉系统的黑盒贴片攻击方法，能够同时攻击边界框回归和对象分类。研究还提出了Ad-YOLO防御方案，以增强对抗攻击的鲁棒性。此外，利用生成对抗网络和扩散模型的方法生成自然对抗贴片，提升了攻击效果和防御能力。

AdvLogo：基于扩散模型的针对物体检测器的对抗性补丁攻击

BriefGPT - AI 论文速递 ·

本文介绍了DPatch，一种针对现代计算机视觉系统的黑盒攻击方法，通过微小扰动影响目标检测性能。研究发现，即使在物体边界框外添加扰动，也会显著降低检测准确性。研究者通过生成对抗补丁和优化攻击策略，成功误导了YOLOv2等检测器，并提出了有效的防御机制，以增强模型的韧性和可靠性。

实时物体检测中对抗性补丁的网络可转移性

BriefGPT - AI 论文速递 ·

本研究探讨了音频信号处理中的黑盒攻击，成功对12个机器学习模型实施攻击。研究发现，语音转换无法有效防御知识丰富的攻击者，并提出了一种新型语音后门攻击方案，针对智能设备的攻击成功率高达80.8%。此外，评估了深度学习模型在语音情感识别中的脆弱性，为提高算法鲁棒性提供了基线数据。

情感攻击：利用情感语音转换对深度语音分类模型进行后门攻击

BriefGPT - AI 论文速递 ·

本文介绍了针对图像和视频分类的对抗性攻击方法，包括黑盒视频识别攻击、关键帧选择策略和三维对抗性标志攻击。同时提出了增强鲁棒性的防御方法，展示了LogoStyleFool框架的优势。此外，还介绍了局部自适应对抗色彩攻击和基于局部风格转换的黑盒视频攻击方法。

高效查询的视频对抗攻击与风格化标志

BriefGPT - AI 论文速递 ·

本研究探讨了黑盒后门攻击的实施可能性，攻击者可以在不知模型结构的情况下，通过设计后门触发器进行攻击。实验结果表明，该方法在黑盒场景中的成功率高，并能有效规避现有防御措施。此外，研究提出了一种基于知识蒸馏的去偏差框架，能够有效降低模型的偏差和安全风险，强调了对抗性防御机制的重要性。

可撤销的深度模型交易的后门

BriefGPT - AI 论文速递 ·

本文研究了扩散模型的成员隐私攻击风险，提出了黑盒攻击方法SecMI，评估了稳定扩散模型的隐私漏洞。实验结果显示攻击成功率达到60%。研究强调了加强防御措施的必要性，并探讨了数据集特性与攻击脆弱性的关系，为未来研究提供了参考。

揭示结构记忆：用于文本到图像转换模型的结构成员推断攻击

BriefGPT - AI 论文速递 ·

本研究探讨了黑盒攻击自然语言处理模型的方法，提出了一种新策略，通过分析原始单词及其上下文生成高质量对抗性示例，显著提高成功率和单词扰动百分比。同时，研究还关注隐私保护技术和模型泛化能力的提升，展示了在多个数据集上的优越性能。

比较基于特征和上下文感知的方法在个人身份信息概化级别预测中的应用

BriefGPT - AI 论文速递 ·

本文提出了一种新的红外物理攻击方法Adversarial Infrared Geometry (AdvIG)，通过建模几何形状并优化参数，实现高效黑盒攻击。实验结果显示，AdvIG在数字和物理攻击中均表现出高效性和隐蔽性。此外，研究还提出了Adversarial Infrared Curves (AdvIC)，成功率分别为94.8%和67.2%。研究探讨了对抗性防御策略，强调其在现实应用中的安全意义。

多视角黑盒物理攻击对红外行人检测器的影响

BriefGPT - AI 论文速递 ·

本文提出了一种简化梯度攻击方法，通过多阶段攻击框架使图神经网络误分类。引入度同配改变指标评估对抗攻击影响，并提出基于优化的对抗训练方法以提高模型鲁棒性。采用新型可微图攻击方法（DGA），实现高效攻击，减少训练时间和内存占用。研究还探讨黑盒攻击和节点插入攻击的有效性，提出动量梯度攻击（MGA）算法，增强攻击效果和转移能力。

AGSOA：基于平均梯度和结构优化的图神经网络目标攻击

BriefGPT - AI 论文速递 ·

本文探讨了基于注入内容的黑盒攻击方法，展示了如何通过优化负载与规避检测的平衡，成功绕过多种恶意软件检测器。研究提出了多种生成对抗样本的方法，强调了机器学习模型在恶意软件检测中的脆弱性及防御策略。实验结果表明，优化后的恶意软件样本能够有效逃避检测。

恶意软件检测中对抗性样本的零阶优化的新形式

BriefGPT - AI 论文速递 ·

本文提出了一种新型越狱攻击方法，针对视觉语言模型，通过替换文本标题为恶意提示进行攻击。研究表明，当前大型视觉语言模型易受攻击，且生成有害内容。为提高安全性，整合了视觉语言安全指令数据集VLGuard，显著降低了黑盒攻击成功率，强调了对多模态大型语言模型的安全评估和防御措施的必要性。

学会看但忘记跟随：视觉指令调整使 LLMs 更容易遭受越狱攻击

BriefGPT - AI 论文速递 ·

本文介绍了多种针对神经网络的对抗攻击方法，包括基于遗传算法的黑盒攻击和梯度估计的攻击方法及其评估标准。这些研究旨在提高对抗性鲁棒性，降低攻击所需的查询次数，并为有效性提供新的见解，推动该领域的进一步探索。

攻击基准：对于对抗性样本的基于梯度的攻击评估

BriefGPT - AI 论文速递 ·

本研究提出了一种基于强化学习的黑盒模型反演攻击方法，结合生成对抗网络（GANs）和马尔可夫决策过程，显著提高了攻击性能。实验结果表明，在多种数据集上，攻击成功率显著提升，生成图像质量与白盒攻击相当，揭示了生成模型的隐私泄漏风险，呼吁加强防护措施。

基于多智能体强化学习的分布式黑盒模型逆推攻击

BriefGPT - AI 论文速递 ·

本文提出了一种新型对抗扰动技术Adv-watermark，结合图像水印与对抗样本算法，提升了黑盒攻击下的水印鲁棒性。同时，开发了稳健隐形水印技术RIW，确保编辑后水印提取准确性高达96%。此外，提出了DiffusionShield方案，有效保护生成图像版权，显示出显著效果。

水印嵌入的对抗性样本用于抵抗扩散模型的版权保护

BriefGPT - AI 论文速递 ·

本文研究了深度学习模型的脆弱性及攻击方式，提出了SparseEvo算法以提升攻击效率。同时介绍了多种黑盒攻击方法，如基于随机搜索的Sparse-RS和利用参考模型梯度降低查询复杂度的方法，这些方法显著提高了攻击的成功率和效率。

BruSLeAttack：一种查询高效的基于评分的黑盒稀疏对抗攻击

BriefGPT - AI 论文速递 ·

当前大型视觉语言模型面临生成有害内容和易受攻击的问题。研究提出了VLGuard数据集，结合微调技术提升模型安全性，降低黑盒攻击成功率。通过引入安全向量和修剪方法，增强模型对越狱攻击的抵抗力，同时发现微调可能引入新的安全风险，强调需改进安全协议以应对这些挑战。

您的 “安全” 数据中有什么？：识别破坏安全性的良性数据

BriefGPT - AI 论文速递 ·