AIxiv专栏报道了香港科技大学等机构提出的SelfDefend框架,旨在提高大语言模型的安全性,抵御越狱攻击。该框架通过引入影子模型,显著降低攻击成功率,同时保持低延迟,展示了AI系统自我保护的潜力。
本文提出了一种新方法,解决了在缺乏目标模型超参数知识时的成员推断攻击(MIA)局限性。通过匹配目标模型与影子模型的输出分布来选择影子模型的超参数,实现了几乎无差异的攻击性能。此外,研究表明,差分隐私转移学习中未考虑的隐私风险对MIA脆弱性影响不大。
完成下面两步后,将自动完成登录并继续当前操作。