基于提示学习的医疗基础模型后门攻击:BAPLe
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一个基于零样本图像净化的后门防御框架,无需被攻击模型的内部信息或清洁/污染样本的先验知识。通过线性变换和预训练扩散模型恢复缺失语义信息,得到高保真净化图像。实验结果显示,该框架优于现有后门防御基线。
🎯
关键要点
- 提出了一个基于零样本图像净化的后门防御框架。
- 该框架能够在黑盒模型中有效抵御各种攻击。
- 无需任何关于被攻击模型的内部信息或清洁/污染样本的先验知识。
- 框架包括两个步骤:线性变换和使用预训练扩散模型。
- 线性变换用于消除污染图像中的触发模式。
- 预训练扩散模型用于恢复缺失的语义信息。
- 最终得到高保真净化图像,适用于零样本情况。
- 实验结果表明,该框架优于现有后门防御基线。
➡️