大规模嵌入模型的稀疏保持差分私有训练

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

使用预训练的语言模型和DP优化技术,在中等规模的语料库上获得胜过强基线和同一隐私预算下的NLP模型。提出了内存节省技术来解决大型Transformers上运行DP-SGD的计算难题。

🎯

关键要点

  • 使用预训练的语言模型结合DP优化技术,能够在中等规模的语料库上超越强基线。
  • 提出了一种内存节省技术,解决了在大型Transformers上运行DP-SGD的计算难题。
  • 该技术使得DP-SGD中的clip运行时无需实例化每个样本的梯度,成本与非隐私训练相当。
  • 运行时间开销适度。
➡️

继续阅读