通过使用预训练的语言模型、非标准化超参数和fine-tuning目标结合DP优化技术,可以在中等规模的语料库上获得胜过强基线和同一隐私预算下的DP-trained模型的NLP模型。同时,提出了一种内存节省技术来解决在大型Transformers上运行DP-SGD的计算难题,该技术可以使得clip在DP-SGD中运行而无需对模型中的任何线性层实例化每个样本的梯度,成本与非隐私的训练相当,并且有适度的运行时间开销。
完成下面两步后,将自动完成登录并继续当前操作。