大语言模型中的拒绝是一个仿射函数

📝

内容提要

本研究针对大语言模型在拒绝时反应不一致的问题,提出了一种名为仿射概念编辑(ACE)的方法,通过直接干预激活来引导模型行为。ACE结合了仿射子空间投影和激活加法,能够稳定地控制模型在各种提示下的拒绝响应,显著提高了模型行为的可控性和一致性。

🏷️

标签

➡️

继续阅读