小红花·文摘

本研究探讨了AI模型的普遍性及其实际应用中的不足，提出通过共享激活空间的学习映射实现模型间的安全干预转移，以提升后门去除和有害提示拒绝的效果，并引入“能力损坏”任务以考察模型在实际挑战中的能力分离。