LUMIA:利用内部大语言模型状态的单模态和多模态成员推断攻击的线性探测

📝

内容提要

本研究针对大型语言模型(LLMs)在成员推断攻击中存在的安全隐患,提出了一种新的检测方法LUMIA,利用线性探测器分析模型的内部激活信息。研究发现,该方法在单模态成员推断中提高了平均曲线下面积(AUC)达15.71%,并且在多模态任务中,视觉输入显著提高检测能力,85.90%的实验中AUC超过60%。

🏷️

标签

➡️

继续阅读