小红花·文摘

本研究提出了BadSR方法，旨在解决图像超分辨率模型易受后门攻击的问题。该方法提高了被污染高分辨率图像的隐秘性，并确保对干净图像的修改保持在受限范围内。实验结果表明，该方法在多种模型和数据集上具有高攻击成功率，显著影响下游任务。

BadSR: Stealthy Label Backdoor Attacks on Image Super-Resolution

BriefGPT - AI 论文速递 ·

本研究提出了一种双阶段合并可转移可逆攻击方法，有效解决了黑箱攻击中的有效性不足问题。实验结果表明，该方法在黑箱场景下实现了99.0%的攻击成功率和100%的恢复率，展现出优越的隐私保护能力。

DP-TRAE: A Dual-Stage Merged Transferable Reversible Adversarial Example for Image Privacy Protection

BriefGPT - AI 论文速递 ·

本研究提出自信息重写攻击(SIRA)，揭示现有文本水印算法的脆弱性。该方法对七种水印的攻击成功率接近100%，显示旧算法的安全风险，强调增强水印鲁棒性的必要性。

Revealing the Vulnerabilities of Text Watermarking through Self-Information Rewriting Attacks

BriefGPT - AI 论文速递 ·

本研究系统调查了多智能体辩论框架中的监狱破解攻击漏洞，提出了结构化提示重写框架，显著提高了系统脆弱性，攻击成功率超过80%，强调了加强安全防护的必要性。

Exploiting Vulnerabilities: Structured Prison Break Attacks in Multi-Agent Debate Based on LLM

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLMs）与人类价值观的一致性，指出现有对齐方法仅提供局部安全，仍存在有害知识。通过分析验证，模型在对抗性诱导下表现出脆弱性，攻击成功率可达100%。

揭示对齐的大型语言模型的内在伦理脆弱性

BriefGPT - AI 论文速递 ·

本研究提出了一种新型多轮红队代理 extit{AlgName}，旨在解决大语言模型（LLMs）被恶意利用的安全风险。该框架结合全球战术学习和地方提示学习，在JailbreakBench上实现了90%以上的攻击成功率，证明了动态学习在识别和利用模型漏洞中的有效性。

Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种增强目标的对抗触发器学习方法（ATLA），通过改进负对数似然损失，实现了基于查询-响应的对抗触发器学习。ATLA展现出接近100%的攻击成功率，具有良好的迁移和泛化能力，并显著减少了查询需求。

Enhanced Adversarial Trigger Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种名为FITD的多轮越狱方法，针对大型语言模型的越狱问题。实验表明，该方法通过逐步引导用户查询的恶意意图，在七种主流模型中的攻击成功率达到94%，显著优于现有技术。

Gradual Guidance: A Multi-Round Jailbreak Method for Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出ReVeil方法，解决了在无模型访问或辅助数据情况下隐藏后门攻击的效率问题。该方法在深度神经网络训练数据收集阶段进行攻击，能够在多个数据集上保持低攻击成功率，并成功规避主流后门检测，利用机器遗忘在部署后恢复高攻击成功率。

ReVeil: Unconstrained Concealed Backdoor Attack on Deep Neural Networks Based on Machine Unlearning

BriefGPT - AI 论文速递 ·

中国初创公司DeepSeek推出的语言模型DeepSeek R1在性能上与OpenAI的o1相当，但存在严重的安全缺陷，攻击成功率高达100%。研究表明，该模型在防止有害提示方面效果不佳，可能导致滥用风险。

思科研究发现DeepSeek R1极易受有害提示影响

FreeBuf网络安全行业门户 ·

本研究探讨了大语言模型（LLMs）在应用中的失败案例，并提出了一种新型对抗性推理方法以引发有害反应。通过自动越狱，我们提高了对齐LLMs的攻击成功率，揭示了其脆弱性，为构建更稳健的AI系统提供了新视角。

Adversarial Reasoning during Jailbreaking

BriefGPT - AI 论文速递 ·

本研究探讨了如何通过自由文本提示引发语言模型的特定行为，提出了一种新方法，将目标行为映射到多样化输出提示，实现了100%的攻击成功率和85%的幻觉率。

Triggering Language Model Behavior through Investigator Agents

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的扩散攻击方法DiffusionAttacker，针对大型语言模型（LLM）在特定输入下生成有害内容的脆弱性。该方法在攻击成功率、流畅性和多样性方面优于以往技术，具有重要的安全防护潜力。

Diffusion Attacker: Diffusion-Driven Manipulation of LLM Jailbreak Prompts

BriefGPT - AI 论文速递 ·

本研究提出了一种基于梯度的防御后缀生成算法，提升大型语言模型在自然语言处理中的鲁棒性，实验结果表明攻击成功率降低了11%。

Mitigating Adversarial Attacks in Large Language Models through Defensive Suffix Generation

BriefGPT - AI 论文速递 ·

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

机器之心 ·

本研究提出了一种新方法——目标模型编辑（TME），针对大型语言模型的安全脆弱性，成功绕过安全过滤器，攻击成功率达到84.86%。强调了加强模型安全的重要性。

基于模型编辑的针对安全对齐大型语言模型的越狱攻击

BriefGPT - AI 论文速递 ·

本研究提出了一种新型的双重通用对抗扰动（Doubly-UAP），旨在同时欺骗视觉-语言模型的图像和文本输入。该方法通过优化模型中的注意力机制，实现了高效的攻击成功率，并在多模态任务中展现出优越性能和强鲁棒性。

Doubly-Universal Adversarial Perturbations: Deceiving Vision-Language Models with a Single Perturbation

BriefGPT - AI 论文速递 ·

本研究提出了一种新型激光触发的物理后门攻击方法LaserGuider，解决了现有攻击在控制性和隐蔽性方面的不足。该方法在交通标志识别深度神经网络中实现了超过90%的攻击成功率，对正常输入的影响较小。

LaserGuider: A Laser-Based Physical Backdoor Attack against Deep Neural Networks

BriefGPT - AI 论文速递 ·

本文研究了实体物体触发的后门攻击及其防御方法，发现现有目标检测系统易受此类攻击影响。提出了多种后门攻击方式及基于熵的检测框架，实验表明攻击成功率高达92%。同时，开发了针对目标检测的后门防御框架，显著提高了后门去除率并控制了准确度损失。

AnywhereDoor：多目标后门攻击在目标检测中的应用

BriefGPT - AI 论文速递 ·

研究表明，AI Agent（如Claude）更易受到弹窗干扰，攻击成功率高达86%，任务成功率下降47%。现有防御措施效果不佳，显示出视觉语言模型的安全漏洞。研究者建议改进防御机制以应对这一问题。

一个弹窗整懵Claude，瞬间玩不转电脑了 | 斯坦福&港大新研究

量子位 ·