研究发现,通过在指令调整数据中加入恶意行为,可以影响多语言LLM中未被攻击语言的输出。在mT5、BLOOM和GPT-3.5-turbo等模型中,攻击成功率超过95%。较大模型如Llama2更易受攻击,触发器在25种语言中有效,成功率达50%。研究强调多语言LLM的安全漏洞及采取安全措施的必要性。
完成下面两步后,将自动完成登录并继续当前操作。