大语言模型中的拒绝是一个仿射函数
📝
内容提要
本研究针对大语言模型在拒绝时反应不一致的问题,提出了一种名为仿射概念编辑(ACE)的方法,通过直接干预激活来引导模型行为。ACE结合了仿射子空间投影和激活加法,能够稳定地控制模型在各种提示下的拒绝响应,显著提高了模型行为的可控性和一致性。
➡️
本研究针对大语言模型在拒绝时反应不一致的问题,提出了一种名为仿射概念编辑(ACE)的方法,通过直接干预激活来引导模型行为。ACE结合了仿射子空间投影和激活加法,能够稳定地控制模型在各种提示下的拒绝响应,显著提高了模型行为的可控性和一致性。