本研究提出了一种基于世界模型的可解释强化学习技术,旨在解决时序决策的复杂性,增强用户对代理策略的理解,并通过环境操控帮助用户控制代理执行。
本研究提出了一种新方法,通过结合局部多样性、行为确定性和全局种群多样性,优化可解释强化学习中的策略演示,显著提升轨迹选择的可解释性,特别在安全性要求高的领域具有重要意义。
完成下面两步后,将自动完成登录并继续当前操作。