Virus: Malicious Fine-tuning Attacks that Bypass Guard Mediators
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究探讨大型语言模型在微调过程中易受恶意攻击的问题,提出了一种新型“病毒”攻击方法,能够绕过数据过滤,泄露率高达100%,表明仅依赖守卫中介无法解决安全隐患。
🎯
关键要点
- 本研究探讨大型语言模型在微调过程中易受恶意攻击的问题。
- 提出了一种新型“病毒”攻击方法,能够绕过数据过滤。
- 该攻击方法的泄露率高达100%,显示出其有效性。
- 依赖守卫中介进行数据过滤并不可靠,无法解决安全隐患。
- 研究表明,仅依靠守卫中介无法解决预训练大型语言模型内在的安全问题。
➡️