针对对抗引导的 LLM 安全性认证

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种具有可验证安全保证的消除-检查框架,用于抵御恶意提示。该技术能够防御三种攻击模式,并在保证处理安全提示性能的同时,提高了在有害提示上的安全保证指标。

🎯

关键要点

  • 提出了一种具有可验证安全保证的消除-检查框架,用于抵御恶意提示。
  • 通过逐个擦除token并使用安全过滤器检查子序列,标记输入提示为有害。
  • 技术能够防御三种攻击模式。
  • 在保证处理安全提示性能的同时,提高了在有害提示上的安全保证指标。
➡️

继续阅读