Virus: Malicious Fine-tuning Attacks that Bypass Guard Mediators
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究探讨大型语言模型在微调过程中易受恶意攻击的问题,提出了一种新型“病毒”攻击方法,能够绕过数据过滤,泄露率高达100%,表明仅依赖守卫中介无法解决安全隐患。
🎯
关键要点
-
本研究探讨大型语言模型在微调过程中易受恶意攻击的问题。
-
提出了一种新型“病毒”攻击方法,能够绕过数据过滤。
-
该攻击方法的泄露率高达100%,显示出其有效性。
-
依赖守卫中介进行数据过滤并不可靠,无法解决安全隐患。
-
研究表明,仅依靠守卫中介无法解决预训练大型语言模型内在的安全问题。
➡️