小红花·文摘

本文介绍了“PINCH”框架在异构硬件平台提取攻击中的应用，评估了21种模型架构的攻击特征。研究表明，Prompt Injection攻击对大型语言模型（LLMs）有效，Model Leeching能够有效提取任务知识。通过构建数据集，探讨了注入攻击的防御方法，并提出了黑盒和白盒防御策略，强调了开源模型的隐私攻击风险。

PII-Scope：一个评估大型语言模型训练数据个人信息泄漏的基准

BriefGPT - AI 论文速递 ·

该文介绍了一种新型的提取攻击——Model Leeching，可以从大型语言模型中提取特定任务知识到一个减少参数的模型。作者通过从ChatGPT-3.5-Turbo中提取任务能力来证明攻击的有效性，精确匹配相似度达到73%。

模型吸附攻击：针对 LLMs 的提取攻击

BriefGPT - AI 论文速递 ·