研究人员发现了一种自动化方法,可以量化视觉可解释性,并在卷积神经网络中找到比单个神经元更具直观意义的方向。他们还将相同的方法应用于大脑中的视觉神经响应数据集,并发现了类似的结果。这一发现可能与去纠缠和稳健表示有关。
神经网络中的神经元代表特征,但可能表现出混合选择性。研究发现,深度网络中的特征可能通过多个神经元叠加表示。研究提出了一种自动化方法来量化视觉可解释性,并在神经数据上验证了这一方法。研究还发现大脑可能也使用了叠加表示。这对于稳健、高效和分解表示提出了基本问题。
该文介绍了一种自动化方法,用于量化视觉可解释性,并在卷积神经网络中找到比个别神经元更具直观意义的方向。该方法还在大脑中的视觉神经响应数据集上得到了验证,表明大脑可能使用了叠加。
ColPali模型通过多向量架构实现视觉可解释性,允许用户查看模型在匹配查询时关注的具体区域。这种可解释性有助于建立信任、调试结果并理解模型行为。模型将图像分为32×32的补丁,计算查询与文档补丁的相似度,并生成热图以可视化匹配区域,从而增强对搜索结果的理解和调试能力。
完成下面两步后,将自动完成登录并继续当前操作。