强化学习中的时间离散化特异性
📝
内容提要
我们考虑了连续时间和离散时间回报的定义之间的关系,并注意到简单的修改如何更好地对齐回报的定义。这个观察在处理时间离散化粒度是一个选择的环境,或者粒度本身是随机的情况下,具有实际意义。
🏷️
标签
➡️
我们考虑了连续时间和离散时间回报的定义之间的关系,并注意到简单的修改如何更好地对齐回报的定义。这个观察在处理时间离散化粒度是一个选择的环境,或者粒度本身是随机的情况下,具有实际意义。