近期研究表明,大型语言模型在训练过程中会记忆大量数据,可能导致隐私泄露。本文提出了一种新的方法来证明数据记忆的下界,并探讨了学习算法样本数量与所需记忆信息之间的权衡。特别是,当样本数量为O(1)时,需记忆Ω(d)比特的信息。该下界与简单学习算法相符,并扩展至更一般的混合聚类模型。
完成下面两步后,将自动完成登录并继续当前操作。