模型吸附攻击:针对 LLMs 的提取攻击
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文介绍了一种新型的提取攻击——Model Leeching,可以从大型语言模型中提取特定任务知识到一个减少参数的模型。作者通过从ChatGPT-3.5-Turbo中提取任务能力来证明攻击的有效性,精确匹配相似度达到73%。
🎯
关键要点
-
Model Leeching 是一种新型的提取攻击,针对大型语言模型(LLMs)。
-
该攻击能够从目标 LLM 中提取特定任务知识到一个减少参数的模型。
-
作者通过从 ChatGPT-3.5-Turbo 提取任务能力来证明攻击的有效性。
-
精确匹配相似度达到 73%。
-
SQuAD 精确匹配和 F1 准确性得分分别为 75% 和 87%。
-
提取过程的 API 成本仅需 $50。
-
进一步证明了通过 Model Leeching 从提取模型到对目标 LLM 进行机器学习攻击的可行性。
-
当应用于 ChatGPT-3.5-Turbo 时,攻击成功率增加了 11%。
🏷️