大型语言模型中的嵌入信息泄漏
原文中文,约500字,阅读约需2分钟。发表于: 。该研究探讨了大型语言模型在数据隐私方面引发的关切,并研究了恶意模型提供者通过输入重建攻击来侵犯隐私的潜力。研究提出了两种基础方法以重建模型隐藏状态中的原始文本,并介绍了一种基于 Transformer 的方法以重建深层嵌入的输入。研究发现 Embed Parrot 在从 ChatGLM-6B 和 Llama2-7B...
研究发现,大型语言模型(LLM)可以通过推断个人属性侵犯隐私,使用真实Reddit个人资料构建数据集展示了LLM在推断个人属性方面的高准确率。研究还指出通过聊天机器人提取个人信息的新威胁,常用的隐私保护措施对于防御LLM推断攻击无效。研究呼吁展开更广泛的讨论,实现更广泛的隐私保护。