小红花·文摘

本研究提出了一种新颖的自动校准成员推断攻击框架（ACMIA），旨在解决现有方法的高假阳性率和对参考模型的依赖问题。通过调节温度，ACMIA有效校准输出概率，增强了成员推断的可靠性和鲁棒性。

Automatic Calibration for Membership Inference Attacks on Large Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了文本到图像扩散模型中的隐性偏见问题，提出了隐性偏见注入攻击框架（IBI-Attacks），该框架能够在不明显改变图像的情况下引入偏见，从而影响公众信息的传递。

Implicit Bias Injection Attacks against Text-to-Image Diffusion Models

BriefGPT - AI 论文速递 ·

本研究探讨了视觉大型语言模型在多层防御下易受复杂对抗攻击的问题。提出的多面攻击框架通过视觉攻击、对齐破坏和对抗签名三种方式成功绕过防护机制，黑箱测试显示攻击成功率达61.56%。

Effective Black-Box Multi-Faceted Attacks Breach Vision Large Language Model Guardrails

BriefGPT - AI 论文速递 ·

本研究分析大型语言模型的安全脆弱性，提出了“伤害评分”指标和“轻松出声”攻击框架，揭示普通用户如何通过简单交互实施有害行为。

Easy Voice: Triggering Harmful Jailbreaks in Large Language Models through Simple Interactions

BriefGPT - AI 论文速递 ·

该研究提出了SneakyPrompt攻击框架，利用强化学习生成可绕过文本到图像生成模型的安全过滤器的内容。实验结果表明，该方法在生成不安全内容方面优于现有技术。研究还探讨了模型的鲁棒性，提出了多种防御措施，并强调了持续审核和适应性的重要性，以应对生成敏感内容的风险。

暗矿：防御文本到图像扩散模型的不安全生成

BriefGPT - AI 论文速递 ·

本文探讨了对抗触发器的研究，提出了多种防御方法和攻击框架，以提高自然语言处理模型的鲁棒性。研究表明，采用对抗正则化和引诱陷阱等技术可以有效检测和防御对抗攻击，推动防御技术的发展。

绕过DARCY防御：不可区分的通用对抗触发器

BriefGPT - AI 论文速递 ·

只需两步，让大模型智能体社区相信你是秦始皇

机器之心 ·

本文探讨了针对大型语言模型（LLMs）的攻击方法及防护措施，提出了多种自动生成的对抗性提示和攻击框架，显示出高攻击成功率，揭示了LLMs的安全隐患。实验结果表明，通过自卫框架训练可显著减少不安全内容的生成，强调了对更全面安全保护的需求。

流利的学生 - 教师红队行动

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLM）的编辑与安全问题，提出了多种攻击框架和防御方法。研究表明，模型编辑可以提高准确性，但也可能带来安全隐患。通过构建基准数据集，分析了编辑对模型行为的影响，并揭示了推荐系统中的安全漏洞。此外，研究还探讨了隐写术在语言模型中的应用，强调了对模型知识编辑的能力及其潜在风险。

对大型语言模型进行可证修复或攻击的隐形编辑

BriefGPT - AI 论文速递 ·

研究人员提出了一种名为R-Trojan的新型攻击框架，通过引入产品的文本评论以提高生成质量。该框架将攻击目标表述为优化问题，并采用定制的基于转换器的生成对抗网络进行求解，从而产生高质量的攻击性用户配置文件。实验证明R-Trojan在多个受害者推荐系统上明显优于现有的攻击方法，并展示了其良好的不可察觉性。

评审引入的模型无关配置注入攻击对推荐系统的影响

BriefGPT - AI 论文速递 ·

本研究提出了一个高度转移的攻击框架，实现领域不变的扰动。该方法在白盒和黑盒情况下创新了欺骗率的最佳性能，优于传统的实例特定攻击方法。

面向可迁移的对抗攻击与集中扰动

BriefGPT - AI 论文速递 ·

该研究提出了一个攻击框架，核心是一个可生成网络，能够实现领域不变的扰动，可在不同领域中高度转移。该方法在白盒和黑盒情况下均创新了欺骗率的最佳性能，并且优于传统的实例特定攻击方法。

深度神经网络中对抗性样本的可迁移性调查

BriefGPT - AI 论文速递 ·

该文介绍了一种攻击框架，通过手动和自动方法生成攻击提示，训练大型语言模型并模仿人类生成的提示，增强受攻击模型对红队攻击的安全性。在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）。

大型语言模型的红队和防御攻击指令生成

BriefGPT - AI 论文速递 ·

本研究提出了一个用于在不同领域中高度转移的攻击框架，通过可生成网络实现领域不变的扰动。该方法在白盒和黑盒情况下均创新了欺骗率的最佳性能，并且优于传统的实例特定攻击方法。

提高恶意示例的可转移性：任意风格转移

BriefGPT - AI 论文速递 ·