可解释性中的认知革命:从解释行为到解释表示与算法
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对深度学习模型的可解释性不足问题,提出基于认知科学的新视角。通过借鉴认知科学的发展,本文阐明了机械可解释性(MI)的目标并提出了一个新的分类法,以促进对深度学习模型的理解。研究表明,将行为研究与内部表示和算法的理解相结合,可以推动人工智能领域的理论进步和实践应用。
理解人工智能系统内部工作对于价值对齐和安全至关重要。本综述通过逆向工程神经网络学习的计算机机制和表示,将其转化为人类可理解的算法和概念,提供细致、因果性的理解。研究了因果分解模型行为的方法论,并评估了机制解释对人工智能安全性的相关性。挑战包括可扩展性、自动化和全面解释。主张明确概念、确立标准,并拓展到视觉和强化学习等领域的技术。机制解释有助于防止人工智能系统灾难性结果。