基于提示学习的医疗基础模型后门攻击:BAPLe

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一个基于零样本图像净化的后门防御框架,无需被攻击模型的内部信息或清洁/污染样本的先验知识。通过线性变换和预训练扩散模型恢复缺失语义信息,得到高保真净化图像。实验结果显示,该框架优于现有后门防御基线。

🎯

关键要点

  • 提出了一个基于零样本图像净化的后门防御框架。
  • 该框架能够在黑盒模型中有效抵御各种攻击。
  • 无需任何关于被攻击模型的内部信息或清洁/污染样本的先验知识。
  • 框架包括两个步骤:线性变换和使用预训练扩散模型。
  • 线性变换用于消除污染图像中的触发模式。
  • 预训练扩散模型用于恢复缺失的语义信息。
  • 最终得到高保真净化图像,适用于零样本情况。
  • 实验结果表明,该框架优于现有后门防御基线。
➡️

继续阅读