本文探讨了大语言模型解释性研究中的区域化问题,提出了一种新技术,通过对齐技术寻找最佳局部编辑。研究发现,随机位置的最佳编辑效果与全模型对齐相当,而局部编辑的行为变化几乎没有编码目标行为的证据。
完成下面两步后,将自动完成登录并继续当前操作。