小红花·文摘

OpenAI与Anthropic分享联合安全评估的发现

OpenAI ·

本文介绍了MASTERKEY框架，旨在自动化大语言模型聊天机器人的越狱攻击。研究揭示了现有防御机制的不足，并通过时间敏感性分析和强化学习生成有效的越狱提示，显著提高了多平台的越狱成功率，强调了AI安全与伦理的重要性。

南洋理工大学| MASTERKEY：面向大语言模型聊天机器人的自动化越狱攻击方法

FreeBuf网络安全行业门户 ·

AI安全实践：在Databricks上应用NVIDIA的Garak于大型语言模型

Databricks ·

本研究创建了AJailBench，评估大型音频语言模型（LAMs）在越狱攻击下的安全性。结果表明，现有LAM在面对精心设计的音频攻击时存在明显脆弱性，强调了开发更强大防御机制的必要性。

Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models

BriefGPT - AI 论文速递 ·

本研究聚焦于大语言模型的越狱攻击，提出了ICE新方法，解决了查询次数多和跨模型泛化差的问题。通过开发BiSceneEval评估数据集，实验结果表明ICE在有效性和可转移性上优于现有技术，揭示了防御机制的脆弱性。

Exploring Jailbreak Attacks on Large Language Models through Intent Hiding and Distributed Approaches

BriefGPT - AI 论文速递 ·

本文探讨了大型音频语言模型的越狱攻击，指出现有文本攻击的不足，并提出了一种新方法AudioJailbreak，具有异步性、普遍性、隐蔽性和抗干扰性，能有效提升模型安全性。

Audio Jailbreak: Jailbreak Attacks on End-to-End Large Audio Language Models

BriefGPT - AI 论文速递 ·

本研究分析了大型语言模型（LLMs）在安全性方面的漏洞，特别是对越狱攻击的脆弱性。研究发现一种普遍的越狱攻击方法，能够绕过多个模型的安全控制，导致有害输出，提示行业需重视AI安全风险。

Dark LLMs: The Growing Threat of Misaligned AI Models

BriefGPT - AI 论文速递 ·

本研究提出了一种可解释的人工智能解决方案，针对大型语言模型的安全威胁，设计了XBreaking越狱攻击，通过目标噪声注入突破安全限制，强调了审查机制的重要性。

XBreaking: An Explainable AI for Jailbreaking Large Language Models

BriefGPT - AI 论文速递 ·

本研究评估了越狱攻击对大型语言模型的影响，发现越狱输出普遍降低了模型的效用，并提出了“越狱税”概念，强调了AI安全性的重要性。

Jailbreak Tax: How Useful Are Your Jailbreak Outputs?

BriefGPT - AI 论文速递 ·

本研究揭示了集成图像提示适配器的文本到图像扩散模型中存在一种新型越狱攻击——劫持攻击。该攻击通过上传不可察觉的对抗样本，劫持用户的图像生成服务。实验验证了攻击的可行性，并探讨了结合对抗训练模型的解决方案。

Mind the Trojan Horse: Image Prompt Adapter Facilitating Scalable and Deceptive Jailbreaking

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型（LLMs）在自主响应中的价值一致性问题，并提出迭代提示技术以提高越狱攻击的有效性。研究发现，采用说服策略可显著提升攻击成功率，最高可达90%。

使用说服技巧的迭代提示在越狱大型语言模型中的应用

BriefGPT - AI 论文速递 ·

本研究提出了一种基于隐喻的越狱攻击方法MJA，旨在解决文本到图像模型的安全漏洞。MJA通过生成隐喻式对抗提示，提高了攻击效果和查询效率，实验结果显示其在多种模型上表现良好。

Metaphor-based Jailbreaking Attacks on Text-to-Image Models

BriefGPT - AI 论文速递 ·

STShield是一种创新的单标记哨兵机制，旨在实时监测大型语言模型的越狱攻击。该方法通过在模型响应中附加安全指示符，利用模型的对齐能力进行检测。研究表明，STShield在保持模型实用性的同时，有效防御多种越狱攻击，具备优越的防御性能和较低的计算开销，适合实际部署。

STShield: Single-Token Sentinel for Real-Time Monitoring of Jailbreak Attacks on Large Language Models

BriefGPT - AI 论文速递 ·

本研究评估了小型语言模型（SLMs）在越狱攻击下的脆弱性，发现47.6%的SLMs对攻击高度敏感，38.1%无法抵御有害查询。模型的大小、架构和训练技术对安全性有显著影响，强调了安全设计的重要性。

Can Small Language Models Reliably Resist Jailbreak Attacks? A Comprehensive Evaluation

BriefGPT - AI 论文速递 ·

本研究评估了13种小型语言模型在越狱攻击下的安全性，发现大多数模型易受攻击且对有害提示脆弱。同时，分析了多种防御方法的有效性，为提升小型语言模型的安全性提供了见解。

Beyond the Surface of Efficiency: Uncovering the Potential Threats of Jailbreak Attacks in Small Language Models

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型（LLMs）安全机制的脆弱性，认为模板锚定是其易受攻击的关键因素。通过将安全机制与模板区域分离，可以有效降低模型对越狱攻击的脆弱性。

Why Do Safeguarded Ships Run Aground? The Safety Mechanisms of Large Language Models Are Often Limited by the Template Region

BriefGPT - AI 论文速递 ·

本研究提出DELMAN方法，旨在解决大型语言模型在决策应用中的越狱攻击问题。该方法通过调整少量参数实现动态防护，同时保持模型性能，实验结果表明其有效应对新攻击实例。

OpenAI与Anthropic分享联合安全评估的发现

南洋理工大学| MASTERKEY：面向大语言模型聊天机器人的自动化越狱攻击方法

AI安全实践：在Databricks上应用NVIDIA的Garak于大型语言模型

Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models

Exploring Jailbreak Attacks on Large Language Models through Intent Hiding and Distributed Approaches

Audio Jailbreak: Jailbreak Attacks on End-to-End Large Audio Language Models

Dark LLMs: The Growing Threat of Misaligned AI Models

XBreaking: An Explainable AI for Jailbreaking Large Language Models

Jailbreak Tax: How Useful Are Your Jailbreak Outputs?

Mind the Trojan Horse: Image Prompt Adapter Facilitating Scalable and Deceptive Jailbreaking

使用说服技巧的迭代提示在越狱大型语言模型中的应用

Metaphor-based Jailbreaking Attacks on Text-to-Image Models

STShield: Single-Token Sentinel for Real-Time Monitoring of Jailbreak Attacks on Large Language Models

Can Small Language Models Reliably Resist Jailbreak Attacks? A Comprehensive Evaluation

Beyond the Surface of Efficiency: Uncovering the Potential Threats of Jailbreak Attacks in Small Language Models

Why Do Safeguarded Ships Run Aground? The Safety Mechanisms of Large Language Models Are Often Limited by the Template Region

DELMAN: Dynamic Defense Against Jailbreak Attacks on Large Language Models via Model Editing

网传DeepSeek R1更容易被越狱？这有个入选顶会的防御框架SelfDefend

研究人员发现新方法防御 AI 模型的通用越狱攻击

📰 DeepSeek AI在测试中显示出对越狱攻击的高度脆弱性