小红花·文摘

本文研究了上下文知识编辑（IKE）对模型输出的影响，探讨了如何检测和逆转这些编辑。研究表明，使用恢复标记可以以超过80%的准确率恢复原始输出，从而提升大型语言模型的透明度和可信度。