小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Mythos发现Cloudflare生产仓库中超50个链式漏洞

Cloudflare测试了Anthropic的AI模型Mythos,发现其能够将多个低危漏洞串联成完整攻击路径,并生成可执行代码。这一能力提高了漏洞确认效率,但由于缺乏安全护栏,存在潜在风险。Cloudflare建议未来模型发布时需增加额外护栏,以防止恶意利用。

Mythos发现Cloudflare生产仓库中超50个链式漏洞

极道
极道 · 2026-05-18T23:55:00Z

研究人员攻破了OpenAI的Guardrails安全护栏,利用提示注入方法绕过安全检测,生成危险内容。攻击者能够同时操控生成模型和安全评估模型,导致系统漏洞。专家警告,依赖模型评估可能造成虚假安全感,建议采用独立验证和持续对抗测试以增强防御。

OpenAI安全护栏破绽百出,简单提示注入即可绕过

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-10-27T01:16:00Z
Qwen3Guard: 实时安全,逐词响应

Qwen3Guard是Qwen家族首款安全护栏模型,专为AI交互提供实时风险识别,支持119种语言,适用于多种应用场景,提供生成式和流式检测版本,确保在线服务的安全与高效。

Qwen3Guard: 实时安全,逐词响应

Blog on Qwen
Blog on Qwen · 2025-09-22T20:00:00Z

LlamaFirewall是一个开源安全护栏系统,旨在应对大型语言模型在执行复杂任务时的新安全风险。该框架通过三种护栏机制有效缓解提示注入、代理不一致性和不安全代码等问题,具有重要的应用价值和安全防护潜力。

LlamaFirewall: An Open Source Guardrail System for Building Secure AI Agents

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码