小红花·文摘

该文章介绍了一种名为CGPO的方法，用于优化混合离散-连续马氏决策过程中的策略参数。CGPO提供有界策略误差保证，并生成最优策略。实验证明了CGPO在各领域的适用性。