小红花·文摘

本研究提出了一种基于决策树的深度强化学习可解释性提取方法，特别在多智能体环境中解决了定量不足的问题。通过建立回报差距上界并采用新颖的非欧几里得聚类，实验结果表明RGMDT在任务表现上显著优于现有基线。