本文提出了一种可验证安全的消除-检查框架,以抵御大型语言模型中的恶意提示。研究表明,细调大型语言模型可能引入新的安全风险,现有的安全对齐措施无法有效应对。实验结果显示,该方法显著降低了攻击成功率,并指出了未来增强大型语言模型安全性的研究方向。
本研究提出了一种改进的迁移攻击方法,解决了大型语言模型安全性研究中的越狱攻击不足。通过良性数据蒸馏,成功构建恶意提示,针对GPT-3.5 Turbo的攻击成功率高达92%,强调了防御机制的重要性。
本文探讨了恶意提示模板构造方法(PromptAttack)在预训练语言模型中的安全性,验证了其有效性,并提出了多种对抗攻击技术和防御策略,旨在提升自然语言处理模型的安全性和性能。
本文探讨了大型语言模型(LLM)在多语言环境中的安全性问题,特别是区域特定风险和低资源语言的恶意提示导致的不安全回答。提出了Llama Guard模型用于分类和评估LLM的安全风险,并引入了SimpleSafetyTests测试套件以识别安全弱点。研究强调了开发安全机制以应对LLM生成有害内容的必要性。
HackAPrompt是全球首次Prompt Hacking竞赛,有超过3000名黑客参与,提交了60万条恶意提示。主办方分析了超过600,000个恶意代码,发现了18种常用的提示黑客技术。竞赛中,上下文溢出攻击被用来限制ChatGPT的输出长度。
本文介绍了一种具有可验证安全保证的消除-检查框架,用于抵御恶意提示。该技术能够防御三种攻击模式,并在保证处理安全提示性能的同时,提高了在有害提示上的安全保证指标。
完成下面两步后,将自动完成登录并继续当前操作。