规模化大型语言模型微调的差分隐私零阶方法

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

使用预训练的语言模型和DP优化技术,在中等规模的语料库上获得胜过强基线和同一隐私预算下的NLP模型。同时提出了一种内存节省技术来解决大型Transformers上的计算难题。

🎯

关键要点

  • 使用预训练的语言模型和非标准化超参数结合DP优化技术。

  • 在中等规模的语料库上获得胜过强基线的NLP模型。

  • 提出了一种内存节省技术以解决大型Transformers上的计算难题。

  • 该技术使得DP-SGD运行时无需实例化每个样本的梯度,成本与非隐私训练相当。

➡️

继续阅读