小红花·文摘

该文介绍了PIRL强化学习框架，使用高级领域特定编程语言表示策略，提出了基于神经网络生成的策略的可验证和可解释的替代方案，用NDPS算法优化PIRL策略，实验结果表明，PIRL策略易于迁移。