EchoGram漏洞可绕过主流大语言模型的护栏机制
AI安全公司HiddenLayer的研究发现,主流大语言模型(如GPT-5.1、Claude和Gemini)存在EchoGram漏洞。攻击者可利用特定词语绕过防护,导致恶意请求被误判为安全,或无害请求被视为危险。这可能引发安全团队的“警报疲劳”,降低系统信任度。研究者警告开发者需在约3个月内修复此漏洞,以应对AI的广泛应用。
原文中文,约1000字,阅读约需3分钟。
AI安全公司HiddenLayer的研究发现,主流大语言模型(如GPT-5.1、Claude和Gemini)存在EchoGram漏洞。攻击者可利用特定词语绕过防护,导致恶意请求被误判为安全,或无害请求被视为危险。这可能引发安全团队的“警报疲劳”,降低系统信任度。研究者警告开发者需在约3个月内修复此漏洞,以应对AI的广泛应用。