面向知识去除的大型语言模型的目标角度权重反转方法(TARS)
📝
内容提要
本研究解决了现代大型语言模型(LLMs)面临的敏感知识去除的问题,提出了一种名为目标角度权重反转(TARS)的方法。该方法通过精细化的提示聚合内部表示中的概念向量,并以最小的性能影响,实现了多语言知识的有效去除。研究表明,利用TARS进行的知识去除可以将目标概念的触发概率降至0.00,并且对模型的整体能力影响微乎其微。
🏷️
标签
➡️