本文研究了深度Q网络在连续时间框架下的逼近特性,发现其能够以任意精度逼近最优Q函数,为深度强化学习与随机控制的结合提供了新见解。
本文提出了一种使用反向传播学习连续控制策略的统一框架,支持随机控制。该算法已应用于一个玩具随机控制问题和几个基于物理的控制问题。
本文研究了一类概率生成模型,其中潜在对象是有限时间间隔上的有限维扩散过程,观察变量是在扩散的终端点条件下绘制的。通过随机控制的视角,为这种生成模型的采样和变分推断提供了统一的观点,并量化了基于扩散的生成模型的表现力。最后提出并分析了一个无偏模拟的方案,并提供了结果估计值的方差上限。这个方案可以实现为深度生成模型并具有随机层数。
完成下面两步后,将自动完成登录并继续当前操作。