本研究提出了一种新颖的框架SHIRE,通过使用概率图模型编码人类直觉,提升深度强化学习的样本效率,并增强策略的可解释性。实验结果表明,该方法在多个环境中实现了25-78%的样本效率提升,且在实际应用中有效。
完成下面两步后,将自动完成登录并继续当前操作。