小红花·文摘

本研究提出对比激活工程（CAE）作为调优大语言模型（LLMs）行为的方法。研究表明，CAE在分布内效果显著，但在分布外表现较差，样本数量对性能提升有边际效应。此外，CA的使用可能增加模型混淆度并受到对抗输入的影响。