机器之心 ·

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

Q: 什么是LLM提示词注入攻击？

LLM提示词注入攻击是指攻击者在第三方数据中注入指令，以覆盖LLM应用的原指令，从而影响其输出。

Q: 有哪些策略可以防御LLM提示词注入攻击？

防御策略包括安全前端、结构化指令微调和安全对齐，这些策略有效降低了攻击成功率。

Q: 安全前端是如何工作的？

安全前端通过使用分隔符分离指令和数据，确保数据部分不被攻击者利用。

Q: 结构化指令微调的目的是什么？

结构化指令微调旨在教导模型忽视注入指令，仅遵循LLM应用系统的原指令。

Q: SecAlign和StruQ的防御效果如何？

StruQ实现了<2%的攻击成功率，而SecAlign实现了0%的攻击成功率，显著降低了攻击风险。

Q: 提示词注入攻击被认为是最大的威胁吗？

是的，提示词注入攻击被OWASP列为对LLM应用系统的最大威胁，影响广泛。

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

AIxiv专栏介绍了一种针对LLM提示词注入攻击的防御框架，提出了安全前端、结构化指令微调和安全对齐三种策略，有效降低攻击成功率，确保LLM应用系统安全。

🎯

关键要点

AIxiv专栏介绍了一种针对LLM提示词注入攻击的防御框架。
提出了安全前端、结构化指令微调和安全对齐三种策略。
这些策略有效降低了提示词注入攻击的成功率，确保LLM应用系统安全。
提示词注入攻击被OWASP列为对LLM应用系统的最大威胁。
攻击者可以在第三方数据中注入指令，覆盖LLM应用的原指令。
第一个原因是LLM输入中没有分离指令和数据，提出安全前端作为解决方案。
第二个原因是LLM训练中模型被教导遵循任意指令，提出结构化指令微调和安全对齐作为解决方案。
安全前端使用分隔符分离指令和数据，确保数据部分不被攻击者利用。
结构化指令微调通过模拟攻击教导模型忽视注入指令。
安全对齐通过构建偏好数据集来优化模型的输出。
StruQ和SecAlign是两种防御策略，分别结合了不同的防御方法。
StruQ模型实现了<2%的攻击成功率，SecAlign实现了0%的攻击成功率。
对于优化的提示词注入攻击，SecAlign将成功率降低到15%以下。

🔎

延伸解读

提示词注入攻击的严重性

提示词注入攻击被OWASP列为对LLM应用系统的最大威胁，攻击者可以通过第三方数据注入恶意指令，导致LLM应用的原指令被覆盖。这种攻击不仅影响应用的安全性，还可能导致私有信息泄露，企业在部署LLM时需高度重视这一风险。

防御策略的有效性

研究提出的三种防御策略——安全前端、结构化指令微调和安全对齐，显示出显著的效果。StruQ和SecAlign模型的攻击成功率分别低于2%和0%，表明这些策略在实际应用中能够有效保护LLM系统，企业应考虑将这些策略纳入安全设计中。

模型训练的重要性

在LLM的训练过程中，模型被教导遵循输入中的任意指令，这为攻击者提供了可乘之机。通过结构化指令微调和安全对齐，研究者能够训练模型忽视注入的恶意指令，确保模型输出的安全性。因此，优化训练过程是提升LLM安全性的关键。

❓

延伸问答

什么是LLM提示词注入攻击？