FreeBuf网络安全行业门户 ·

电子科技大学 | 针对自定义LLM的指令后门攻击

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

文章探讨了自定义大语言模型（LLMs）面临的指令后门攻击，尽管用户可通过自然语言创建模型，但安全隐患依然存在。研究表明，攻击者可通过隐蔽指令和特定触发条件操控模型输出。攻击方式包括词级、语法级和语义级，实验结果显示，强大的LLM更易受到攻击，且攻击对正常推理影响较小，强调了自定义应用的潜在风险。

🎯

关键要点

自定义大语言模型（LLMs）面临指令后门攻击的安全隐患。
攻击者可通过隐蔽指令和特定触发条件操控模型输出。
攻击方式包括词级、语法级和语义级，强大的LLM更易受到攻击。
自定义LLM允许用户通过自然语言提示创建模型，但存在安全盲区。
后门攻击通过操纵提示植入自定义LLM，无需对后端进行微调。
攻击者的目标是生成特定触发输入时激活的后门指令。
实验使用了多个文本分类数据集，评估了不同LLM的攻击性能。
词级别攻击对准确率影响小，但攻击成功率高。
语法级和语义级攻击也表现出良好的攻击性能，且对正常推理影响小。
更强大的LLM可能更容易受到指令后门攻击，强调了定制应用的潜在风险。
消融研究探讨了触发器长度、位置等因素对攻击性能的影响。

❓

延伸问答

自定义大语言模型（LLMs）面临哪些安全隐患？

自定义LLMs面临指令后门攻击的安全隐患，攻击者可以通过隐蔽指令操控模型输出。

指令后门攻击的主要攻击方式有哪些？

指令后门攻击主要包括词级、语法级和语义级三种方式。

强大的LLM为何更容易受到指令后门攻击？

强大的LLM由于增强的指令跟随能力，更容易受到指令后门攻击。

后门攻击如何影响模型的正常推理？

后门攻击对正常推理的影响较小，攻击成功率高，但准确率变化不大。

实验中使用了哪些文本分类数据集？

实验使用了SST-2、SMS、AGNews、DBPedia和Amazon等多个文本分类数据集。

触发器的长度和位置对攻击性能有何影响？

触发器的长度和位置会影响攻击性能，较长的触发器并不总是提升效果，位置在句尾时攻击成功率更高。

🏷️

继续阅读

什么是 AI 对话开发？AI 对话开发有什么用途？(2026 完整指南)
AI对话开发结合语音识别、大语言模型和语音合成，能够与用户自然交流，广泛应用于智能客服、AI陪伴和在线教育等领域。与传统聊天机器人不同，AI对话能够理解上...
他们是由权重构成的：一篇让你重新思考AI与人类的文章
本文探讨了大语言模型的核心原理，强调知识和推理能力分布在权重网络中，而非独立模块。通过类比人类大脑，讨论了意识的涌现理论及人类对AI的情感投射，指出人类对...
人工智能没有意识：华裔科幻作家拆穿AI人格化背后认知陷阱
特德·姜批评AI人格化，认为大语言模型如Claude仅是文字续写机器，并无意识。他指出，将AI视为有感情的存在会模糊责任归属，导致人类逃避道德责任。真正的...
使用Scikit-LLM与开源语言模型
本文介绍如何使用Ollama本地托管的开源语言模型（如Llama 3、Mistral和Gemma）进行文本分类，避免支付API费用。内容包括Ollama的...
SKAI Intelligence与首尔大学AI研究院开展合作研究
SKAI Intelligence与首尔大学AI研究院签署合作备忘录，联合研究机器人感知与抓取技术，重点包括物理AI核心视觉、多物体识别与位姿估计，以提升...
网络设备曾经看起来像小型笔记本电脑，但现在它们变得更加个性化
近年来，网络设备（cyberdecks）向个性化发展，许多DIY爱好者在社交媒体上展示将计算机组件隐藏在手袋、玩具等物品中的创意。这些迷你Linux计算机...