本文探讨了大语言模型解释性研究中的区域化问题,提出了一种新技术,通过对齐技术寻找最佳局部编辑。研究发现,随机位置的最佳编辑效果与全模型对齐相当,而局部编辑的行为变化几乎没有编码目标行为的证据。
本研究提出了一种新的基线探索-利用(BEE)方法,旨在解决解释性研究中的细致评估和缺失信息建模问题。实验结果表明,BEE在多项评估指标上优于现有方法。
语言模型的解释性研究有限,本文提出了一种自动化的方法,使用GPT-4生成和评分神经元行为的自然语言解释,并将其应用于另一个语言模型。这种方法有望成为未来模型更好解释的助手。
完成下面两步后,将自动完成登录并继续当前操作。