模型吸附攻击:针对 LLMs 的提取攻击

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文介绍了一种新型的提取攻击——Model Leeching,可以从大型语言模型中提取特定任务知识到一个减少参数的模型。作者通过从ChatGPT-3.5-Turbo中提取任务能力来证明攻击的有效性,精确匹配相似度达到73%。

🎯

关键要点

  • Model Leeching 是一种新型的提取攻击,针对大型语言模型(LLMs)。
  • 该攻击能够从目标 LLM 中提取特定任务知识到一个减少参数的模型。
  • 作者通过从 ChatGPT-3.5-Turbo 提取任务能力来证明攻击的有效性。
  • 精确匹配相似度达到 73%。
  • SQuAD 精确匹配和 F1 准确性得分分别为 75% 和 87%。
  • 提取过程的 API 成本仅需 $50。
  • 进一步证明了通过 Model Leeching 从提取模型到对目标 LLM 进行机器学习攻击的可行性。
  • 当应用于 ChatGPT-3.5-Turbo 时,攻击成功率增加了 11%。
➡️

继续阅读