Memorization or Interpolation? Detecting Memorization Phenomena in Large Language Models through Input Perturbation Analysis
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究探讨了大语言模型(LLMs)在训练中可能出现的记忆现象,导致模型逐字复述训练数据,从而影响数据隐私和知识产权。提出了PEARL方法,通过输入扰动分析检测记忆现象,实验结果表明该方法有效。
🎯
关键要点
- 大语言模型(LLMs)在训练过程中可能出现记忆现象,导致逐字复述训练数据。
- 这种记忆现象对数据隐私和知识产权构成威胁。
- 提出了PEARL方法,通过输入扰动分析检测记忆现象。
- PEARL方法评估输入扰动对模型输出一致性的影响,能够在不访问模型内部的情况下进行检测。
- 实验结果表明PEARL方法有效,可以识别训练中经典文本和特定数据的存在。
➡️