解释强化学习的反事实 Shapley 值

该论文介绍了一种新颖的方法 —— 对策演进值（CSV），通过将反事实分析与 Shapley 值相结合，增强了强化学习（RL）的可解释性。该方法旨在量化和比较不同状态维度对各种动作选择的贡献，通过引入新的特征值函数 ——“反事实差异特征值” 和 “平均反事实差异特征值”，准确分析这些影响，有助于计算 Shapley 值以评估最佳和非最佳动作之间的差异。在...

该论文介绍了一种新的方法，结合反事实分析和Shapley值，增强了强化学习的可解释性。该方法通过引入新的特征值函数，准确分析状态维度对动作选择的贡献，评估最佳和非最佳动作之间的差异。实验证明该方法有效，改善了复杂RL系统的可解释性，量化了决策差异。

决策差异动作选择可解释性强化学习特征值函数