近期研究表明,大型语言模型在训练过程中会记忆大量数据,可能导致隐私泄露。本文提出了一种新的方法来证明数据记忆的下界,并探讨了学习算法样本数量与所需记忆信息之间的权衡。特别是,当样本数量为O(1)时,需记忆Ω(d)比特的信息。该下界与简单学习算法相符,并扩展至更一般的混合聚类模型。
本文介绍了一种新颖的机器遗忘方法LoTUS,旨在消除训练样本对预训练模型的影响,避免重新训练。LoTUS通过平滑模型的预测概率,减轻数据记忆导致的过度自信。实验表明,LoTUS在效率和效果上优于现有方法,尤其在大规模数据集上表现出良好潜力。
该研究使用预训练语言模型分析联合语料库,发现模型在某些情况下能够利用信息,但在其他情况下只是记住了数据。该研究对于大规模互联网语料库的语言理解和数据利用具有重要意义。
在《自然・人类行为》一文中,作者讨论了大语言模型在模拟推理方面的特点。然而,实验证明GPT-3无法解决最简单的变体问题,需要更多证据排除数据记忆对人类推理能力的影响。
完成下面两步后,将自动完成登录并继续当前操作。