小红花·文摘

本文探讨了大语言模型解释性研究中的区域化问题，提出了一种新技术，通过对齐技术寻找最佳局部编辑。研究发现，随机位置的最佳编辑效果与全模型对齐相当，而局部编辑的行为变化几乎没有编码目标行为的证据。