从专家混合模型中窃取用户提示
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种新攻击方式,利用混合专家模型的安全漏洞,通过将对抗者与受害者的查询安排在同一批次中,有效提取受害者的提示信息。实验结果表明,仅需O({VM}^2)次查询即可获取完整提示。
🎯
关键要点
- 本研究提出了一种新攻击方式,针对混合专家模型的安全隐患。
- 攻击方式通过将对抗者的查询与受害者的查询安排在同一批次中进行。
- 该方法能够利用专家选择路由机制,完全暴露受害者的提示信息。
- 实验结果表明,仅需O({VM}^2)次查询即可提取完整提示。
- 在特定场景中,平均每个令牌只需100次查询,开创了提取用户提示的新攻击方法。
➡️