小红花·文摘

本文研究了可提取性记忆，探讨了对大型语言模型训练数据的提取攻击方法。研究发现，攻击者能够从开源和闭源模型中提取大量敏感信息，现有的对齐技术无法完全消除这一风险。通过提示调参和实验，提出了有效的攻击和防御策略，强调了保护训练数据隐私的重要性。