规模化大型语言模型微调的差分隐私零阶方法
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
使用预训练的语言模型和DP优化技术,在中等规模的语料库上获得胜过强基线和同一隐私预算下的NLP模型。同时提出了一种内存节省技术来解决大型Transformers上的计算难题。
🎯
关键要点
-
使用预训练的语言模型和非标准化超参数结合DP优化技术。
-
在中等规模的语料库上获得胜过强基线的NLP模型。
-
提出了一种内存节省技术以解决大型Transformers上的计算难题。
-
该技术使得DP-SGD运行时无需实例化每个样本的梯度,成本与非隐私训练相当。
➡️