研究人员利用提示注入漏洞绕过Meta的Llama防火墙防护

Meta防火墙遭提示注入攻破,AI安全防护形同虚设。

Trendyol安全团队发现Meta的Llama防火墙在提示注入攻击中失效,暴露大语言模型的安全隐患。测试显示其依赖英语关键词,无法识别语言变体,导致恶意指令绕过。CODE_SHIELD模块未能标记不安全代码,增加生产风险。研究呼吁在LLM集成前进行严格测试,以防数据泄露和系统入侵。

原文中文,约1900字,阅读约需5分钟。发表于:
阅读原文