小红花·文摘

本文介绍了概念瓶颈模型（CBMs）及其改进版本IntCEMs，旨在提高神经网络的可解释性和性能。研究表明，IntCEMs通过学习概念干预策略显著提升了模型表现。此外，ProbCBM模型通过建模概念预测的不确定性，增强了模型的可靠性和解释性。研究还探讨了模型的鲁棒性及防御机制，并提出了新的概念嵌入模型以优化准确性和解释能力。