字节子词嵌入在不牺牲准确性和复杂性的情况下提升隐私保护
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了自然语言处理(NLP)模型中隐私保护的挑战,提出了一种名为字节子词嵌入(SEB)的方法,通过深度神经网络将子词编码为字节序列,从而增加了输入文本恢复的难度。实验表明,SEB在联邦学习中的隐私保护效果优于传统方法,同时在机器翻译、情感分析和语言建模等任务中,提供了更低的时间和空间复杂度。
该研究分析了大型语言模型对数据隐私的影响,探讨了恶意模型提供者通过输入重建攻击侵犯隐私的风险。研究提出了两种重建方法,发现Embed Parrot在重建原始输入方面效果显著,并提出了保护用户隐私的防御机制,强调在分布式学习系统中增强安全协议的重要性。