小红花·文摘

研究发现，通过在指令调整数据中加入恶意行为，可以影响多语言LLM中未被攻击语言的输出。在mT5、BLOOM和GPT-3.5-turbo等模型中，攻击成功率超过95%。较大模型如Llama2更易受攻击，触发器在25种语言中有效，成功率达50%。研究强调多语言LLM的安全漏洞及采取安全措施的必要性。