通过伪标记成员的微调增强训练数据曝光

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

大型语言模型(LLMs)在隐私方面存在关注,因为它们会泄露训练数据和PII,给使用LLMs的公司带来隐私和法律问题。希望本研究能引发跨学科讨论并制定相应政策。

🎯

关键要点

  • 大型语言模型(LLMs)在隐私方面存在关注。
  • LLMs会记忆训练数据,包括个人可识别信息(PII),并在推理过程中泄露。
  • 现有工作对此关注度较低。
  • 精调模型不仅会泄露训练数据,还会泄露预训练阶段记忆的预训练数据和PII。
  • 精调模型导致新的数据点容易被提取,给公司带来隐私和法律问题。
  • 希望本研究能引发跨学科讨论,并制定相应政策。
➡️

继续阅读