大规模嵌入模型的稀疏保持差分私有训练
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
使用预训练的语言模型和DP优化技术,在中等规模的语料库上获得胜过强基线和同一隐私预算下的NLP模型。提出了内存节省技术来解决大型Transformers上运行DP-SGD的计算难题。
🎯
关键要点
- 使用预训练的语言模型结合DP优化技术,能够在中等规模的语料库上超越强基线。
- 提出了一种内存节省技术,解决了在大型Transformers上运行DP-SGD的计算难题。
- 该技术使得DP-SGD中的clip运行时无需实例化每个样本的梯度,成本与非隐私训练相当。
- 运行时间开销适度。
➡️