小红花·文摘

本研究提出MIB基准，以评估新机械解释性方法的有效性。通过比较不同方法在神经语言模型中的因果路径和变量识别，揭示了归因和掩蔽优化在电路定位中的优势，为该领域的进展提供了信心。