BriefGPT - AI 论文速递 ·

Training Language Models Based on Private Federated Data in the Era of LLMs

💡 原文英文，约100词，阅读约需1分钟。

📝

内容提要

本文探讨了通过在公共数据上预训练大型语言模型（LLMs）提升差分隐私联合学习（FL）性能的方法。研究表明，利用LLMs生成的合成数据显著提高了用户数据的预测准确性。此外，增强版PE算法（Aug-PE）能够生成具有竞争力的差分隐私合成文本，改善隐私保护下的语言模型应用效果。

🎯

❓

通过在公共数据上进行预训练，可以提高差分隐私联合学习的性能，生成的合成数据显著提升用户数据的预测准确性。

利用LLMs生成的合成数据显著提高了用户数据的预测准确性，在Gboard的评估中实现了19.0%和22.8%的改善。

增强版PE算法（Aug-PE）能够生成具有竞争力的差分隐私合成文本，改善隐私保护下的语言模型应用效果。

在Gboard的真实用户数据上评估时，合成数据集上预训练的模型在下一个单词预测准确性方面实现了显著改善。

使用预训练的生成式语言模型可以产生差分隐私合成数据集，且合成数据的质量与直接使用差分隐私训练的性能相当。

未来的研究方向包括进一步减少合成数据与真实用户数据分布之间的差距，以提高模型的性能和隐私保护效果。

🏷️