大型语言模型的私人微调与零阶优化

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

通过使用预训练的语言模型、非标准化超参数和fine-tuning目标结合DP优化技术,可以在中等规模的语料库上获得胜过强基线和同一隐私预算下的DP-trained模型的NLP模型。同时,提出了一种内存节省技术来解决在大型Transformers上运行DP-SGD的计算难题,该技术可以使得clip在DP-SGD中运行而无需对模型中的任何线性层实例化每个样本的梯度,成本与非隐私的训练相当,并且有适度的运行时间开销。

🎯

关键要点

  • 使用预训练的语言模型和非标准化超参数结合DP优化技术,能够在中等规模语料库上超越强基线和DP-trained模型。
  • 提出了一种内存节省技术,解决在大型Transformers上运行DP-SGD的计算难题。
  • 该技术允许在DP-SGD中运行clip,而无需实例化每个样本的梯度,成本与非隐私训练相当。
  • 该方法具有适度的运行时间开销。
➡️

继续阅读