小红花·文摘

通过使用预训练的语言模型、非标准化超参数和fine-tuning目标结合DP优化技术，可以在中等规模的语料库上获得胜过强基线和同一隐私预算下的DP-trained模型的NLP模型。同时，提出了一种内存节省技术来解决在大型Transformers上运行DP-SGD的计算难题，该技术可以使得clip在DP-SGD中运行而无需对模型中的任何线性层实例化每个样本的梯度，成本与非隐私的训练相当，并且有适度的运行时间开销。