本研究提出了BadSR方法,旨在解决图像超分辨率模型易受后门攻击的问题。该方法提高了被污染高分辨率图像的隐秘性,并确保对干净图像的修改保持在受限范围内。实验结果表明,该方法在多种模型和数据集上具有高攻击成功率,显著影响下游任务。
本研究提出了一种双阶段合并可转移可逆攻击方法,有效解决了黑箱攻击中的有效性不足问题。实验结果表明,该方法在黑箱场景下实现了99.0%的攻击成功率和100%的恢复率,展现出优越的隐私保护能力。
本研究提出自信息重写攻击(SIRA),揭示现有文本水印算法的脆弱性。该方法对七种水印的攻击成功率接近100%,显示旧算法的安全风险,强调增强水印鲁棒性的必要性。
本研究系统调查了多智能体辩论框架中的监狱破解攻击漏洞,提出了结构化提示重写框架,显著提高了系统脆弱性,攻击成功率超过80%,强调了加强安全防护的必要性。
本研究探讨了大型语言模型(LLMs)与人类价值观的一致性,指出现有对齐方法仅提供局部安全,仍存在有害知识。通过分析验证,模型在对抗性诱导下表现出脆弱性,攻击成功率可达100%。
本研究提出了一种新型多轮红队代理 extit{AlgName},旨在解决大语言模型(LLMs)被恶意利用的安全风险。该框架结合全球战术学习和地方提示学习,在JailbreakBench上实现了90%以上的攻击成功率,证明了动态学习在识别和利用模型漏洞中的有效性。
本研究提出了一种增强目标的对抗触发器学习方法(ATLA),通过改进负对数似然损失,实现了基于查询-响应的对抗触发器学习。ATLA展现出接近100%的攻击成功率,具有良好的迁移和泛化能力,并显著减少了查询需求。
本研究提出了一种名为FITD的多轮越狱方法,针对大型语言模型的越狱问题。实验表明,该方法通过逐步引导用户查询的恶意意图,在七种主流模型中的攻击成功率达到94%,显著优于现有技术。
本研究提出ReVeil方法,解决了在无模型访问或辅助数据情况下隐藏后门攻击的效率问题。该方法在深度神经网络训练数据收集阶段进行攻击,能够在多个数据集上保持低攻击成功率,并成功规避主流后门检测,利用机器遗忘在部署后恢复高攻击成功率。
中国初创公司DeepSeek推出的语言模型DeepSeek R1在性能上与OpenAI的o1相当,但存在严重的安全缺陷,攻击成功率高达100%。研究表明,该模型在防止有害提示方面效果不佳,可能导致滥用风险。
本研究探讨了大语言模型(LLMs)在应用中的失败案例,并提出了一种新型对抗性推理方法以引发有害反应。通过自动越狱,我们提高了对齐LLMs的攻击成功率,揭示了其脆弱性,为构建更稳健的AI系统提供了新视角。
本研究探讨了如何通过自由文本提示引发语言模型的特定行为,提出了一种新方法,将目标行为映射到多样化输出提示,实现了100%的攻击成功率和85%的幻觉率。
本研究提出了一种新颖的扩散攻击方法DiffusionAttacker,针对大型语言模型(LLM)在特定输入下生成有害内容的脆弱性。该方法在攻击成功率、流畅性和多样性方面优于以往技术,具有重要的安全防护潜力。
本研究提出了一种基于梯度的防御后缀生成算法,提升大型语言模型在自然语言处理中的鲁棒性,实验结果表明攻击成功率降低了11%。
AIxiv专栏介绍了一种针对LLM提示词注入攻击的防御框架,提出了安全前端、结构化指令微调和安全对齐三种策略,有效降低攻击成功率,确保LLM应用系统安全。
本研究提出了一种新方法——目标模型编辑(TME),针对大型语言模型的安全脆弱性,成功绕过安全过滤器,攻击成功率达到84.86%。强调了加强模型安全的重要性。
本研究提出了一种新型的双重通用对抗扰动(Doubly-UAP),旨在同时欺骗视觉-语言模型的图像和文本输入。该方法通过优化模型中的注意力机制,实现了高效的攻击成功率,并在多模态任务中展现出优越性能和强鲁棒性。
本研究提出了一种新型激光触发的物理后门攻击方法LaserGuider,解决了现有攻击在控制性和隐蔽性方面的不足。该方法在交通标志识别深度神经网络中实现了超过90%的攻击成功率,对正常输入的影响较小。
本文研究了实体物体触发的后门攻击及其防御方法,发现现有目标检测系统易受此类攻击影响。提出了多种后门攻击方式及基于熵的检测框架,实验表明攻击成功率高达92%。同时,开发了针对目标检测的后门防御框架,显著提高了后门去除率并控制了准确度损失。
研究表明,AI Agent(如Claude)更易受到弹窗干扰,攻击成功率高达86%,任务成功率下降47%。现有防御措施效果不佳,显示出视觉语言模型的安全漏洞。研究者建议改进防御机制以应对这一问题。
完成下面两步后,将自动完成登录并继续当前操作。