小红花·文摘

本研究探讨了神经网络的可解释性，提出通过分解多义神经元和应用稀疏特征电路的方法。研究表明，多义性影响模型性能，并强调模型结构对可解释性的影响。实验结果显示，神经元能够有效表示人类可理解的特征，提升了神经网络的透明度和可操控性。