小红花·文摘

文章探讨了自定义大语言模型（LLMs）面临的指令后门攻击，尽管用户可通过自然语言创建模型，但安全隐患依然存在。研究表明，攻击者可通过隐蔽指令和特定触发条件操控模型输出。攻击方式包括词级、语法级和语义级，实验结果显示，强大的LLM更易受到攻击，且攻击对正常推理影响较小，强调了自定义应用的潜在风险。