小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了BadSR方法,旨在解决图像超分辨率模型易受后门攻击的问题。该方法提高了被污染高分辨率图像的隐秘性,并确保对干净图像的修改保持在受限范围内。实验结果表明,该方法在多种模型和数据集上具有高攻击成功率,显著影响下游任务。

BadSR: Stealthy Label Backdoor Attacks on Image Super-Resolution

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了一种双阶段合并可转移可逆攻击方法,有效解决了黑箱攻击中的有效性不足问题。实验结果表明,该方法在黑箱场景下实现了99.0%的攻击成功率和100%的恢复率,展现出优越的隐私保护能力。

DP-TRAE: A Dual-Stage Merged Transferable Reversible Adversarial Example for Image Privacy Protection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-11T00:00:00Z

本研究提出自信息重写攻击(SIRA),揭示现有文本水印算法的脆弱性。该方法对七种水印的攻击成功率接近100%,显示旧算法的安全风险,强调增强水印鲁棒性的必要性。

Revealing the Vulnerabilities of Text Watermarking through Self-Information Rewriting Attacks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究系统调查了多智能体辩论框架中的监狱破解攻击漏洞,提出了结构化提示重写框架,显著提高了系统脆弱性,攻击成功率超过80%,强调了加强安全防护的必要性。

Exploiting Vulnerabilities: Structured Prison Break Attacks in Multi-Agent Debate Based on LLM

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-23T00:00:00Z

本研究探讨了大型语言模型(LLMs)与人类价值观的一致性,指出现有对齐方法仅提供局部安全,仍存在有害知识。通过分析验证,模型在对抗性诱导下表现出脆弱性,攻击成功率可达100%。

揭示对齐的大型语言模型的内在伦理脆弱性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z

本研究提出了一种新型多轮红队代理 extit{AlgName},旨在解决大语言模型(LLMs)被恶意利用的安全风险。该框架结合全球战术学习和地方提示学习,在JailbreakBench上实现了90%以上的攻击成功率,证明了动态学习在识别和利用模型漏洞中的有效性。

Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

本研究提出了一种增强目标的对抗触发器学习方法(ATLA),通过改进负对数似然损失,实现了基于查询-响应的对抗触发器学习。ATLA展现出接近100%的攻击成功率,具有良好的迁移和泛化能力,并显著减少了查询需求。

Enhanced Adversarial Trigger Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-16T00:00:00Z

本研究提出了一种名为FITD的多轮越狱方法,针对大型语言模型的越狱问题。实验表明,该方法通过逐步引导用户查询的恶意意图,在七种主流模型中的攻击成功率达到94%,显著优于现有技术。

Gradual Guidance: A Multi-Round Jailbreak Method for Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z

本研究提出ReVeil方法,解决了在无模型访问或辅助数据情况下隐藏后门攻击的效率问题。该方法在深度神经网络训练数据收集阶段进行攻击,能够在多个数据集上保持低攻击成功率,并成功规避主流后门检测,利用机器遗忘在部署后恢复高攻击成功率。

ReVeil: Unconstrained Concealed Backdoor Attack on Deep Neural Networks Based on Machine Unlearning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

中国初创公司DeepSeek推出的语言模型DeepSeek R1在性能上与OpenAI的o1相当,但存在严重的安全缺陷,攻击成功率高达100%。研究表明,该模型在防止有害提示方面效果不佳,可能导致滥用风险。

思科研究发现DeepSeek R1极易受有害提示影响

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-02-03T08:28:01Z

本研究探讨了大语言模型(LLMs)在应用中的失败案例,并提出了一种新型对抗性推理方法以引发有害反应。通过自动越狱,我们提高了对齐LLMs的攻击成功率,揭示了其脆弱性,为构建更稳健的AI系统提供了新视角。

Adversarial Reasoning during Jailbreaking

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本研究探讨了如何通过自由文本提示引发语言模型的特定行为,提出了一种新方法,将目标行为映射到多样化输出提示,实现了100%的攻击成功率和85%的幻觉率。

Triggering Language Model Behavior through Investigator Agents

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本研究提出了一种新颖的扩散攻击方法DiffusionAttacker,针对大型语言模型(LLM)在特定输入下生成有害内容的脆弱性。该方法在攻击成功率、流畅性和多样性方面优于以往技术,具有重要的安全防护潜力。

Diffusion Attacker: Diffusion-Driven Manipulation of LLM Jailbreak Prompts

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-23T00:00:00Z

本研究提出了一种基于梯度的防御后缀生成算法,提升大型语言模型在自然语言处理中的鲁棒性,实验结果表明攻击成功率降低了11%。

Mitigating Adversarial Attacks in Large Language Models through Defensive Suffix Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z
USENIX Sec'25 | LLM提示词注入攻击如何防?UC伯克利、Meta最新研究来了

AIxiv专栏介绍了一种针对LLM提示词注入攻击的防御框架,提出了安全前端、结构化指令微调和安全对齐三种策略,有效降低攻击成功率,确保LLM应用系统安全。

USENIX Sec'25 | LLM提示词注入攻击如何防?UC伯克利、Meta最新研究来了

机器之心
机器之心 · 2024-12-17T12:33:02Z

本研究提出了一种新方法——目标模型编辑(TME),针对大型语言模型的安全脆弱性,成功绕过安全过滤器,攻击成功率达到84.86%。强调了加强模型安全的重要性。

基于模型编辑的针对安全对齐大型语言模型的越狱攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究提出了一种新型的双重通用对抗扰动(Doubly-UAP),旨在同时欺骗视觉-语言模型的图像和文本输入。该方法通过优化模型中的注意力机制,实现了高效的攻击成功率,并在多模态任务中展现出优越性能和强鲁棒性。

Doubly-Universal Adversarial Perturbations: Deceiving Vision-Language Models with a Single Perturbation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究提出了一种新型激光触发的物理后门攻击方法LaserGuider,解决了现有攻击在控制性和隐蔽性方面的不足。该方法在交通标志识别深度神经网络中实现了超过90%的攻击成功率,对正常输入的影响较小。

LaserGuider: A Laser-Based Physical Backdoor Attack against Deep Neural Networks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本文研究了实体物体触发的后门攻击及其防御方法,发现现有目标检测系统易受此类攻击影响。提出了多种后门攻击方式及基于熵的检测框架,实验表明攻击成功率高达92%。同时,开发了针对目标检测的后门防御框架,显著提高了后门去除率并控制了准确度损失。

AnywhereDoor:多目标后门攻击在目标检测中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

研究表明,AI Agent(如Claude)更易受到弹窗干扰,攻击成功率高达86%,任务成功率下降47%。现有防御措施效果不佳,显示出视觉语言模型的安全漏洞。研究者建议改进防御机制以应对这一问题。

一个弹窗整懵Claude,瞬间玩不转电脑了 | 斯坦福&港大新研究

量子位
量子位 · 2024-11-08T08:21:44Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码