大型语言模型中的嵌入信息泄漏

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

研究发现,大型语言模型(LLM)可以通过推断个人属性侵犯隐私,使用真实Reddit个人资料构建数据集展示了LLM在推断个人属性方面的高准确率。研究还指出通过聊天机器人提取个人信息的新威胁,常用的隐私保护措施对于防御LLM推断攻击无效。研究呼吁展开更广泛的讨论,实现更广泛的隐私保护。

🎯

关键要点

  • 当前隐私研究主要集中在大型语言模型(LLM)提取训练数据的问题上。
  • LLM的推论能力已大幅增强,可能通过推断侵犯个人隐私。
  • 研究构建了真实Reddit个人资料的数据集,展示LLM推断个人属性的高准确率。
  • LLM能够推断地点、收入、性别等个人属性,准确率高达85%(top-1)和95.8%(top-3)。
  • 通过聊天机器人提取个人信息的新威胁正在出现,尤其是通过无害问题。
  • 常用的隐私保护措施如文本匿名化和模型对齐对防御LLM推断攻击无效。
  • 研究呼吁展开更广泛的讨论,以实现更有效的隐私保护。
➡️

继续阅读