小红花·文摘

该研究发现，跨语言背门攻击对多语言LLM的影响较大，较大的模型更易受攻击。触发器仍然有效，背门机制在25种语言的跨语言响应环境中攻击成功率平均达到50%。研究强调多语言LLM存在的漏洞和安全风险，呼吁采取有针对性的安全措施。