评估可解释性方法的函数解释基准
原文中文,约300字,阅读约需1分钟。发表于: 。评估构建自动可解释性方法的基本模块的基准套件 FIND,包括与训练神经网络组件类似的函数和相应的描述,表明语言模型仅通过对函数进行黑箱访问,能够推断函数结构,并形成假设、提出实验并根据新数据更新描述,但基于语言模型的描述倾向于捕捉全局函数行为而忽略局部损坏,这些结果表明在应用于实际模型之前,FIND 对于表征更复杂的可解释性方法的性能将是有用的。
评估构建自动可解释性方法的基本模块的基准套件FIND,发现语言模型能够推断函数结构并形成假设、提出实验并根据新数据更新描述。然而,基于语言模型的描述倾向于捕捉全局函数行为而忽略局部损坏。这些结果表明,在应用于实际模型之前,FIND对于表征更复杂的可解释性方法的性能将是有用的。