小红花·文摘

本文探讨了大型语言模型的激活引导技术，提出了一种名为Activation Addition (ActAdd)的方法，通过修改激活预测性地改变模型行为。研究表明，激活工程能够有效引导模型输出特定风格，并提升编程模型的鲁棒性和准确性。此外，Contrastive Activation Addition（CAA）方法显著改善了模型行为控制，超越了传统微调方法。研究还提出了后门激活攻击框架，展示了其在对齐任务中的有效性。