针对对抗引导的 LLM 安全性认证
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种具有可验证安全保证的消除-检查框架,用于抵御恶意提示。该技术能够防御三种攻击模式,并在保证处理安全提示性能的同时,提高了在有害提示上的安全保证指标。
🎯
关键要点
- 提出了一种具有可验证安全保证的消除-检查框架,用于抵御恶意提示。
- 通过逐个擦除token并使用安全过滤器检查子序列,标记输入提示为有害。
- 技术能够防御三种攻击模式。
- 在保证处理安全提示性能的同时,提高了在有害提示上的安全保证指标。
➡️