基于特征向量的平均奖励学习

📝

内容提要

本文解决了强化学习中对平均奖励问题的研究空白,提出了一种基于神经网络函数逼近的方法,扩展了熵正则化平均奖励的框架。研究发现,该方法能有效关联不同的目标,同时在经典控制基准测试中,其稳定性和收敛速度优于其他算法,展示了其潜在的实际应用价值。

🏷️

标签

➡️

继续阅读