小红花·文摘

当前大型语言模型（LLMs）的隐私审计技术效果有限，依赖基本方法生成无效信号，导致隐私泄漏检测能力不足。本研究开发的新检测信号在多种威胁模型下表现优越，显著提升了隐私保护效果。