本研究提出了一种新颖的自动校准成员推断攻击框架(ACMIA),旨在解决现有方法的高假阳性率和对参考模型的依赖问题。通过调节温度,ACMIA有效校准输出概率,增强了成员推断的可靠性和鲁棒性。
本研究探讨了文本到图像扩散模型中的隐性偏见问题,提出了隐性偏见注入攻击框架(IBI-Attacks),该框架能够在不明显改变图像的情况下引入偏见,从而影响公众信息的传递。
本研究分析大型语言模型的安全脆弱性,提出了“伤害评分”指标和“轻松出声”攻击框架,揭示普通用户如何通过简单交互实施有害行为。
介绍了LogoStyleFool攻击框架,通过添加图标解决视频检测和自然性降低问题,实验证明其优于其他方法,对抗防御仍有效。
该文章介绍了一种综合方法,通过手动和自动方法生成攻击提示,用于训练语言模型并模仿人类生成的提示。实验证实了攻击和防御框架的有效性,并发布了攻击提示数据集(SAP)。
本文讨论了基于大语言模型(LLM)的多智能体系统中的知识传播风险,提出了一种两阶段的攻击框架,通过植入和编造知识使智能体传播和改变认知。实验结果表明攻击成功率高,指出多智能体社区对不可信知识传播缺乏防御机制,未来工作可从预防和检测入手提升鲁棒性和安全性。
研究人员提出了一种名为R-Trojan的新型攻击框架,通过引入产品的文本评论以提高生成质量。该框架将攻击目标表述为优化问题,并采用定制的基于转换器的生成对抗网络进行求解,从而产生高质量的攻击性用户配置文件。实验证明R-Trojan在多个受害者推荐系统上明显优于现有的攻击方法,并展示了其良好的不可察觉性。
本研究提出了一个高度转移的攻击框架,实现领域不变的扰动。该方法在白盒和黑盒情况下创新了欺骗率的最佳性能,优于传统的实例特定攻击方法。
该研究提出了一个攻击框架,核心是一个可生成网络,能够实现领域不变的扰动,可在不同领域中高度转移。该方法在白盒和黑盒情况下均创新了欺骗率的最佳性能,并且优于传统的实例特定攻击方法。
该文介绍了一种攻击框架,通过手动和自动方法生成攻击提示,训练大型语言模型并模仿人类生成的提示,增强受攻击模型对红队攻击的安全性。在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)。
本研究提出了一个用于在不同领域中高度转移的攻击框架,通过可生成网络实现领域不变的扰动。该方法在白盒和黑盒情况下均创新了欺骗率的最佳性能,并且优于传统的实例特定攻击方法。
完成下面两步后,将自动完成登录并继续当前操作。