本文通过对一种类似于对齐任务的简化设置进行理论分析,展示了大语言模型通过自我纠正可以改进响应。研究发现,softmax关注、多头关注和MLP块在自我纠正中起到关键作用。自我纠正具有潜在应用,如抵制大型语言模型越狱。这些发现将促进对自我纠正的进一步研究和应用。
完成下面两步后,将自动完成登录并继续当前操作。