该文章介绍了一种名为CGPO的方法,用于优化混合离散-连续马氏决策过程中的策略参数。CGPO提供有界策略误差保证,并生成最优策略。实验证明了CGPO在各领域的适用性。
完成下面两步后,将自动完成登录并继续当前操作。