本研究提出了一种框架,通过时间逻辑公式和嵌入方法对强化学习代理的行为进行解释和聚类。实验结果表明,该框架能够有效分类代理行为,并提供易于理解的策略描述,从而提升用户在代理验证任务中的表现。
完成下面两步后,将自动完成登录并继续当前操作。