本研究提出了一种新颖的自动校准成员推断攻击框架(ACMIA),旨在解决现有方法的高假阳性率和对参考模型的依赖问题。通过调节温度,ACMIA有效校准输出概率,增强了成员推断的可靠性和鲁棒性。
本研究探讨了文本到图像扩散模型中的隐性偏见问题,提出了隐性偏见注入攻击框架(IBI-Attacks),该框架能够在不明显改变图像的情况下引入偏见,从而影响公众信息的传递。
本研究探讨了视觉大型语言模型在多层防御下易受复杂对抗攻击的问题。提出的多面攻击框架通过视觉攻击、对齐破坏和对抗签名三种方式成功绕过防护机制,黑箱测试显示攻击成功率达61.56%。
本研究分析大型语言模型的安全脆弱性,提出了“伤害评分”指标和“轻松出声”攻击框架,揭示普通用户如何通过简单交互实施有害行为。
该研究提出了SneakyPrompt攻击框架,利用强化学习生成可绕过文本到图像生成模型的安全过滤器的内容。实验结果表明,该方法在生成不安全内容方面优于现有技术。研究还探讨了模型的鲁棒性,提出了多种防御措施,并强调了持续审核和适应性的重要性,以应对生成敏感内容的风险。
本文探讨了对抗触发器的研究,提出了多种防御方法和攻击框架,以提高自然语言处理模型的鲁棒性。研究表明,采用对抗正则化和引诱陷阱等技术可以有效检测和防御对抗攻击,推动防御技术的发展。
本文讨论了基于大语言模型(LLM)的多智能体系统中的知识传播风险,提出了一种两阶段的攻击框架,通过植入和编造知识使智能体传播和改变认知。实验结果表明攻击成功率高,指出多智能体社区对不可信知识传播缺乏防御机制,未来工作可从预防和检测入手提升鲁棒性和安全性。
本文探讨了针对大型语言模型(LLMs)的攻击方法及防护措施,提出了多种自动生成的对抗性提示和攻击框架,显示出高攻击成功率,揭示了LLMs的安全隐患。实验结果表明,通过自卫框架训练可显著减少不安全内容的生成,强调了对更全面安全保护的需求。
本文探讨了大型语言模型(LLM)的编辑与安全问题,提出了多种攻击框架和防御方法。研究表明,模型编辑可以提高准确性,但也可能带来安全隐患。通过构建基准数据集,分析了编辑对模型行为的影响,并揭示了推荐系统中的安全漏洞。此外,研究还探讨了隐写术在语言模型中的应用,强调了对模型知识编辑的能力及其潜在风险。
研究人员提出了一种名为R-Trojan的新型攻击框架,通过引入产品的文本评论以提高生成质量。该框架将攻击目标表述为优化问题,并采用定制的基于转换器的生成对抗网络进行求解,从而产生高质量的攻击性用户配置文件。实验证明R-Trojan在多个受害者推荐系统上明显优于现有的攻击方法,并展示了其良好的不可察觉性。
本研究提出了一个高度转移的攻击框架,实现领域不变的扰动。该方法在白盒和黑盒情况下创新了欺骗率的最佳性能,优于传统的实例特定攻击方法。
该研究提出了一个攻击框架,核心是一个可生成网络,能够实现领域不变的扰动,可在不同领域中高度转移。该方法在白盒和黑盒情况下均创新了欺骗率的最佳性能,并且优于传统的实例特定攻击方法。
该文介绍了一种攻击框架,通过手动和自动方法生成攻击提示,训练大型语言模型并模仿人类生成的提示,增强受攻击模型对红队攻击的安全性。在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)。
本研究提出了一个用于在不同领域中高度转移的攻击框架,通过可生成网络实现领域不变的扰动。该方法在白盒和黑盒情况下均创新了欺骗率的最佳性能,并且优于传统的实例特定攻击方法。
完成下面两步后,将自动完成登录并继续当前操作。