通过强数据处理不等式的数据记忆权衡
Recent research demonstrated that training large language models involves memorization of a significant fraction of training data. Such memorization can lead to privacy violations when training on...
近期研究表明,大型语言模型在训练过程中会记忆大量数据,可能导致隐私泄露。本文提出了一种新的方法来证明数据记忆的下界,并探讨了学习算法样本数量与所需记忆信息之间的权衡。特别是,当样本数量为O(1)时,需记忆Ω(d)比特的信息。该下界与简单学习算法相符,并扩展至更一般的混合聚类模型。
