小红花·文摘 - 小红花技术领袖俱乐部

本文探讨了大语言模型解释性研究中的区域化问题，提出了一种新技术，通过对齐技术寻找最佳局部编辑。研究发现，随机位置的最佳编辑效果与全模型对齐相当，而局部编辑的行为变化几乎没有编码目标行为的证据。

编辑是否提供区域化的证据？

BriefGPT - AI 论文速递 ·

本研究提出了一种新的基线探索-利用（BEE）方法，旨在解决解释性研究中的细致评估和缺失信息建模问题。实验结果表明，BEE在多项评估指标上优于现有方法。

BEE：通过基线探索-利用实现度量适应的解释

BriefGPT - AI 论文速递 ·

语言模型可以解释语言模型中的神经元

语言模型可以解释语言模型中的神经元

OpenAI ·