小红花·文摘

本研究提出了一种新颖的框架SHIRE，通过使用概率图模型编码人类直觉，提升深度强化学习的样本效率，并增强策略的可解释性。实验结果表明，该方法在多个环境中实现了25-78%的样本效率提升，且在实际应用中有效。