小红花·文摘

本文介绍了一种新的强化学习算法，通过学习状态间距离来优化智能体的学习，实验表明其样本效率优于传统方法。同时，提出了一种优化有限深度决策树的线性规划方法，以平衡性能与可解释性。此外，研究探讨了基于RGM算法的离线策略优化，解决了不完整奖励问题，并提出了SYMPOL和DTPO算法，以提高决策树的可解释性和优化效果。