通过图形上界形式在稳健约束马尔可夫决策过程中识别近优策略
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
该文章介绍了一种名为CGPO的方法,用于优化混合离散-连续马氏决策过程中的策略参数。CGPO提供有界策略误差保证,并生成最优策略。实验证明了CGPO在各领域的适用性。
🏷️