本研究提出了一种基于决策树的深度强化学习可解释性提取方法,特别在多智能体环境中解决了定量不足的问题。通过建立回报差距上界并采用新颖的非欧几里得聚类,实验结果表明RGMDT在任务表现上显著优于现有基线。
完成下面两步后,将自动完成登录并继续当前操作。