BriefGPT - AI 论文速递 ·

朝着更现实的提取攻击：一种对抗性视角

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文研究了可提取性记忆，探讨了对大型语言模型训练数据的提取攻击方法。研究发现，攻击者能够从开源和闭源模型中提取大量敏感信息，现有的对齐技术无法完全消除这一风险。通过提示调参和实验，提出了有效的攻击和防御策略，强调了保护训练数据隐私的重要性。

🎯

❓

可提取性记忆是指通过查询机器学习模型，能够高效提取其训练数据，而无需事先了解训练数据集。

攻击者可以通过对开源、半开放和闭源模型进行查询，提取出大量的训练数据，包括个人信息和代码等敏感信息。

现有的对齐技术无法完全消除从模型中提取敏感信息的风险。

研究通过提示调参的方法，展示了有效的攻击和防御策略，最大可降低97.7%的提取率。

分歧攻击是一种新的攻击方法，能够使模型偏离其正常生成风格，以高于正常行为150倍的速率提取训练数据。

保护训练数据隐私非常重要，因为攻击者能够提取大量敏感信息，这对个人和组织的安全构成威胁。

🏷️