该文介绍了PIRL强化学习框架,使用高级领域特定编程语言表示策略,提出了基于神经网络生成的策略的可验证和可解释的替代方案,用NDPS算法优化PIRL策略,实验结果表明,PIRL策略易于迁移。
完成下面两步后,将自动完成登录并继续当前操作。