FreeBuf网络安全行业门户 ·

研究人员利用提示注入漏洞绕过Meta的Llama防火墙防护

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

Trendyol安全团队发现Meta的Llama防火墙在提示注入攻击中失效，暴露大语言模型的安全隐患。测试显示其依赖英语关键词，无法识别语言变体，导致恶意指令绕过。CODE_SHIELD模块未能标记不安全代码，增加生产风险。研究呼吁在LLM集成前进行严格测试，以防数据泄露和系统入侵。

🎯

🔎

Trendyol的研究揭示了Meta的Llama防火墙在处理多语言和字符变体时的脆弱性。防火墙主要依赖英语关键词，导致恶意指令能够轻易绕过。这一发现提醒企业在使用大语言模型时，需考虑多语言环境下的安全性，避免因防护不足而导致的潜在风险。

CODE_SHIELD模块未能识别不安全代码，显示出对自动化工具的过度依赖可能引发的安全隐患。企业在使用LLM生成代码时，必须进行人工审查，以防止潜在的安全漏洞被忽视。这一问题强调了在自动化与人工审查之间找到平衡的重要性。

研究中提到的Unicode隐写技术展示了攻击者如何利用不可见字符进行绕过。这种隐蔽的攻击方式在开发者协作环境中尤为危险，因自动化扫描器难以检测。企业应加强对这种新型攻击手段的认识，并采取相应的防护措施，以保护系统安全。

❓

Llama防火墙在面对复杂的提示注入攻击时失效，尤其是依赖英语关键词，无法识别语言变体。

他们发现Llama防火墙无法识别恶意指令，且CODE_SHIELD模块未能标记不安全代码，增加了生产风险。

攻击者通过使用不可见Unicode字符嵌入隐藏指令，导致模型执行恶意命令。

他们测试了100种注入载荷，其中一半成功绕过了Llama防火墙的防御。

Meta确认收到报告，但最终将其标记为'信息性'并关闭，未发放漏洞赏金。

研究呼吁在LLM集成前进行严格的红队测试，以防止数据泄露和系统入侵。

🏷️