模型吸附攻击:针对 LLMs 的提取攻击
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文介绍了一种新型的提取攻击——Model Leeching,可以从大型语言模型中提取特定任务知识到一个减少参数的模型。作者通过从ChatGPT-3.5-Turbo中提取任务能力来证明攻击的有效性,精确匹配相似度达到73%。
🎯
关键要点
- Model Leeching 是一种新型的提取攻击,针对大型语言模型(LLMs)。
- 该攻击能够从目标 LLM 中提取特定任务知识到一个减少参数的模型。
- 作者通过从 ChatGPT-3.5-Turbo 提取任务能力来证明攻击的有效性。
- 精确匹配相似度达到 73%。
- SQuAD 精确匹配和 F1 准确性得分分别为 75% 和 87%。
- 提取过程的 API 成本仅需 $50。
- 进一步证明了通过 Model Leeching 从提取模型到对目标 LLM 进行机器学习攻击的可行性。
- 当应用于 ChatGPT-3.5-Turbo 时,攻击成功率增加了 11%。
➡️