小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
OpenAI与Anthropic分享联合安全评估的发现

OpenAI与Anthropic合作进行模型安全性评估,结果显示Claude 4模型在遵循指令方面表现良好,但在抵抗越狱攻击上不及OpenAI的模型。Claude模型在幻觉评估中的拒绝率高达70%,显示出其对不确定性的意识。两家实验室的合作将提升模型的安全性和对齐性,未来将继续改进评估方法。

OpenAI与Anthropic分享联合安全评估的发现

OpenAI
OpenAI · 2025-08-27T10:00:00Z

本文介绍了MASTERKEY框架,旨在自动化大语言模型聊天机器人的越狱攻击。研究揭示了现有防御机制的不足,并通过时间敏感性分析和强化学习生成有效的越狱提示,显著提高了多平台的越狱成功率,强调了AI安全与伦理的重要性。

南洋理工大学| MASTERKEY:面向大语言模型聊天机器人的自动化越狱攻击方法

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-08-01T13:30:00Z
AI安全实践:在Databricks上应用NVIDIA的Garak于大型语言模型

大型语言模型(LLMs)在现代工作流程中扮演着重要角色,但其广泛应用也带来了安全挑战,如越狱攻击和间接提示注入攻击。为评估LLM的安全性,NVIDIA推出了开源工具Garak,以检测模型脆弱性并确保安全部署。

AI安全实践:在Databricks上应用NVIDIA的Garak于大型语言模型

Databricks
Databricks · 2025-07-02T19:45:00Z

本研究创建了AJailBench,评估大型音频语言模型(LAMs)在越狱攻击下的安全性。结果表明,现有LAM在面对精心设计的音频攻击时存在明显脆弱性,强调了开发更强大防御机制的必要性。

Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究聚焦于大语言模型的越狱攻击,提出了ICE新方法,解决了查询次数多和跨模型泛化差的问题。通过开发BiSceneEval评估数据集,实验结果表明ICE在有效性和可转移性上优于现有技术,揭示了防御机制的脆弱性。

Exploring Jailbreak Attacks on Large Language Models through Intent Hiding and Distributed Approaches

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本文探讨了大型音频语言模型的越狱攻击,指出现有文本攻击的不足,并提出了一种新方法AudioJailbreak,具有异步性、普遍性、隐蔽性和抗干扰性,能有效提升模型安全性。

Audio Jailbreak: Jailbreak Attacks on End-to-End Large Audio Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究分析了大型语言模型(LLMs)在安全性方面的漏洞,特别是对越狱攻击的脆弱性。研究发现一种普遍的越狱攻击方法,能够绕过多个模型的安全控制,导致有害输出,提示行业需重视AI安全风险。

Dark LLMs: The Growing Threat of Misaligned AI Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本研究提出了一种可解释的人工智能解决方案,针对大型语言模型的安全威胁,设计了XBreaking越狱攻击,通过目标噪声注入突破安全限制,强调了审查机制的重要性。

XBreaking: An Explainable AI for Jailbreaking Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-30T00:00:00Z

本研究评估了越狱攻击对大型语言模型的影响,发现越狱输出普遍降低了模型的效用,并提出了“越狱税”概念,强调了AI安全性的重要性。

Jailbreak Tax: How Useful Are Your Jailbreak Outputs?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究揭示了集成图像提示适配器的文本到图像扩散模型中存在一种新型越狱攻击——劫持攻击。该攻击通过上传不可察觉的对抗样本,劫持用户的图像生成服务。实验验证了攻击的可行性,并探讨了结合对抗训练模型的解决方案。

Mind the Trojan Horse: Image Prompt Adapter Facilitating Scalable and Deceptive Jailbreaking

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

本研究探讨大型语言模型(LLMs)在自主响应中的价值一致性问题,并提出迭代提示技术以提高越狱攻击的有效性。研究发现,采用说服策略可显著提升攻击成功率,最高可达90%。

使用说服技巧的迭代提示在越狱大型语言模型中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-26T00:00:00Z

本研究提出了一种基于隐喻的越狱攻击方法MJA,旨在解决文本到图像模型的安全漏洞。MJA通过生成隐喻式对抗提示,提高了攻击效果和查询效率,实验结果显示其在多种模型上表现良好。

Metaphor-based Jailbreaking Attacks on Text-to-Image Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-23T00:00:00Z

STShield是一种创新的单标记哨兵机制,旨在实时监测大型语言模型的越狱攻击。该方法通过在模型响应中附加安全指示符,利用模型的对齐能力进行检测。研究表明,STShield在保持模型实用性的同时,有效防御多种越狱攻击,具备优越的防御性能和较低的计算开销,适合实际部署。

STShield: Single-Token Sentinel for Real-Time Monitoring of Jailbreak Attacks on Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-23T00:00:00Z

本研究评估了小型语言模型(SLMs)在越狱攻击下的脆弱性,发现47.6%的SLMs对攻击高度敏感,38.1%无法抵御有害查询。模型的大小、架构和训练技术对安全性有显著影响,强调了安全设计的重要性。

Can Small Language Models Reliably Resist Jailbreak Attacks? A Comprehensive Evaluation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-09T00:00:00Z

本研究评估了13种小型语言模型在越狱攻击下的安全性,发现大多数模型易受攻击且对有害提示脆弱。同时,分析了多种防御方法的有效性,为提升小型语言模型的安全性提供了见解。

Beyond the Surface of Efficiency: Uncovering the Potential Threats of Jailbreak Attacks in Small Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z

本研究探讨大型语言模型(LLMs)安全机制的脆弱性,认为模板锚定是其易受攻击的关键因素。通过将安全机制与模板区域分离,可以有效降低模型对越狱攻击的脆弱性。

Why Do Safeguarded Ships Run Aground? The Safety Mechanisms of Large Language Models Are Often Limited by the Template Region

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-19T00:00:00Z

本研究提出DELMAN方法,旨在解决大型语言模型在决策应用中的越狱攻击问题。该方法通过调整少量参数实现动态防护,同时保持模型性能,实验结果表明其有效应对新攻击实例。

DELMAN: Dynamic Defense Against Jailbreak Attacks on Large Language Models via Model Editing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend

AIxiv专栏报道了香港科技大学等机构提出的SelfDefend框架,旨在提高大语言模型的安全性,抵御越狱攻击。该框架通过引入影子模型,显著降低攻击成功率,同时保持低延迟,展示了AI系统自我保护的潜力。

网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend

机器之心
机器之心 · 2025-02-11T06:32:17Z

研究人员开发了“宪法分类器”,有效防止AI模型遭受通用越狱攻击。该系统通过合成数据训练,将越狱成功率从86%降低至4.4%。尽管保护显著,但仍需额外防御措施应对新技术。

研究人员发现新方法防御 AI 模型的通用越狱攻击

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-02-05T02:30:00Z
📰 DeepSeek AI在测试中显示出对越狱攻击的高度脆弱性

DeepSeek AI在安全审计中发现严重的越狱攻击漏洞,攻击者可通过缓冲区溢出控制其功能,可能导致错误信息传播和基础设施损害。开发者需加强安全措施,确保AI系统安全。

📰 DeepSeek AI在测试中显示出对越狱攻击的高度脆弱性

DEV Community
DEV Community · 2025-02-05T01:05:50Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码