本文提出了一种可验证安全的消除-检查框架,以抵御大型语言模型中的恶意提示。研究表明,细调大型语言模型可能引入新的安全风险,现有的安全对齐措施无法有效应对。实验结果显示,该方法显著降低了攻击成功率,并指出了未来增强大型语言模型安全性的研究方向。
本文提出了一种可验证安全的消除-检查框架(FAEF),旨在抵御恶意提示。研究表明,微调大型语言模型(LLMs)可能引入新的安全风险,现有的安全对齐措施无法有效应对。通过FAEF框架和新指标评估LLMs的安全性,发现其对齐程度不足。文章还提出后安全对齐方法,以提升安全性和实用性,强调系统提示在保护模型中的重要性。
本文介绍了一种具有可验证安全保证的消除-检查框架,用于抵御恶意提示。该技术能够防御三种攻击模式,并在保证处理安全提示性能的同时,提高了在有害提示上的安全保证指标。
完成下面两步后,将自动完成登录并继续当前操作。