小红花·文摘

本文通过对一种类似于对齐任务的简化设置进行理论分析，展示了大语言模型通过自我纠正可以改进响应。研究发现，softmax关注、多头关注和MLP块在自我纠正中起到关键作用。自我纠正具有潜在应用，如抵制大型语言模型越狱。这些发现将促进对自我纠正的进一步研究和应用。