大语言模型解除学习的潜在表征引导效应

本研究针对大语言模型解除学习中存在的表征误导问题，提出了通过引导中间层表征来实现有效解除学习的方法。研究表明，引导表征能够降低生成的响应信心，从而导致错误结果。此外，提出的自适应表征引导方法在不同网络层上显著提高了解除学习的效果，且没有额外的计算成本。

本研究综合研究了预训练大语言模型的机器遗忘，提出了‘被遗忘权’概念，并建立了机器遗忘性能的鲁棒基准。研究发现梯度上升与梯度下降相结合可以提高超参数的稳健性，并提供了高效超参数调整的指南。这些发现推动了关于道德AI实践的讨论，为预训练大语言模型的机器遗忘机制提供了实质性的见解。

大语言模型机器遗忘被遗忘权超参数道德AI实践预训练大语言模型