大规模预训练语言模型的达芬奇密码：解读退化知识神经元

通过探讨预训练语言模型中事实知识存储的机制，本研究提供了对退化知识神经元（DKNs）进行综合定义的方法，包括其结构和功能方面，并研究了在事实知识存储单元中结构的形成，为其引入神经拓扑聚类方法和神经退化分析框架，该框架综合评估了模型的鲁棒性、可进化性和复杂性，通过 34 个实验在两个预训练语言模型、四个数据集和六个设置上成功验证了 DKNs 的关键作用。

DEPN框架用于检测和编辑预训练语言模型中的隐私神经元，以降低数据泄漏风险。该方法通过引入隐私神经元探测器定位相关神经元，并通过编辑激活为零来去除隐私信息。实验证明该方法有效降低私人数据泄漏风险，且不影响模型性能。研究还展示了模型记忆和隐私神经元之间的关系，证明该方法的稳健性。

DEPN框架数据泄漏风险模型性能稳健性语言模型隐私神经元