The Berkeley Artificial Intelligence Research Blog ·

通过结构化查询（StruQ）和偏好优化（SecAlign）防御提示注入攻击

💡 原文英文，约900词，阅读约需3分钟。

📝

内容提要

为应对大型语言模型（LLM）的提示注入攻击，提出了StruQ和SecAlign两种防御机制。StruQ通过结构化指令调优，使LLM忽略注入指令；SecAlign则优化LLM对正确响应的偏好。实验结果表明，这两种方法显著降低了攻击成功率，增强了模型的安全性和鲁棒性。

🎯

❓

提示注入攻击是指攻击者通过在输入中注入不可信的指令，操控大型语言模型（LLM）的输出。

StruQ通过结构化指令调优使LLM忽略注入指令，SecAlign则优化LLM对正确响应的偏好。

提示注入攻击的原因包括输入中缺乏提示和数据的分离，以及LLM被训练为遵循输入中的任何指令。

实验表明，StruQ和SecAlign显著降低了攻击成功率，SecAlign将强优化攻击的成功率降低至15%以下。

训练LLM以抵御提示注入攻击的步骤包括使用安全前端过滤数据和进行偏好优化。

StruQ和SecAlign在不增加计算或人力成本的情况下，显著降低了攻击成功率。

🏷️

在AI工作负载时代如何确保Kubernetes的安全性
Kubernetes的安全性因AI工作负载而变得复杂，传统的集群安全措施已无法应对动态流量。Azure Kubernetes Service（AKS）通过...
肖恩·托马斯：期待Postgres 19：查询提示
Postgres 19引入了pg_plan_advice和pg_stash_advice模块，提供查询建议功能，帮助优化器选择更好的执行计划。此功能允许D...
HostKVM香港优化线路 VPS 限时 8 折：4GB 内存/2 核/40G SSD 仅需 $9.6/月
HostKVM推出香港VPS夏季特惠，所有线路享受8折优惠，针对内地客户优化，具备低延迟和高带宽性价比，支持信用卡和支付宝等多种支付方式。
The latest AI news we announced in May 2026
May AI recap
How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...
MAHA希望将棉花打造成新的牛脂
美国农业部推出“伟大的美国棉花计划”，旨在推广本土棉花，支持农民和国内制造业。尽管消费者对天然纤维服装的兴趣上升，但棉花生产面临高成本和化学品使用问题，且...