文章探讨了自定义大语言模型(LLMs)面临的指令后门攻击,尽管用户可通过自然语言创建模型,但安全隐患依然存在。研究表明,攻击者可通过隐蔽指令和特定触发条件操控模型输出。攻击方式包括词级、语法级和语义级,实验结果显示,强大的LLM更易受到攻击,且攻击对正常推理影响较小,强调了自定义应用的潜在风险。
完成下面两步后,将自动完成登录并继续当前操作。