将PEFT视为攻击!在联邦参数高效微调中破解语言模型

📝

内容提要

本研究针对联邦参数高效微调(FedPEFT)中的安全隐患进行探讨,揭示了PEFT方法可被利用为攻击向量,绕过语言模型的安全机制并生成有害内容。我们提出的PEFT-as-an-Attack(PaaA)威胁显示,在训练可调参数不足1%的情况下,就能实现约80%的攻击成功率。这表明需要研发更有效的防御机制,以保障联邦微调的安全性与模型性能。

🏷️

标签

➡️

继续阅读