小红花·文摘

本文研究了深度Q网络在连续时间框架下的逼近特性，发现其能够以任意精度逼近最优Q函数，为深度强化学习与随机控制的结合提供了新见解。

深度Q网络的通用逼近定理

BriefGPT - AI 论文速递 ·

本文提出了一种统一框架，通过反向传播学习连续控制策略，支持随机控制。研究展示了多种算法在高维随机控制问题中的有效性，强调了深度学习与动态系统结合的潜力，并提出了改进的强化学习算法以提高数据效率，探讨了安全轨迹优化和风险敏感控制的应用。

无仿真深度学习方法解决随机最优控制问题

BriefGPT - AI 论文速递 ·

本文提出了一种使用反向传播学习连续控制策略的统一框架，支持随机控制。该算法已应用于一个玩具随机控制问题和几个基于物理的控制问题。

具有随机有状态策略的高效强化学习

BriefGPT - AI 论文速递 ·

本文研究了一类概率生成模型，其中潜在对象是有限时间间隔上的有限维扩散过程，观察变量是在扩散的终端点条件下绘制的。通过随机控制的视角，为这种生成模型的采样和变分推断提供了统一的观点，并量化了基于扩散的生成模型的表现力。最后提出并分析了一个无偏模拟的方案，并提供了结果估计值的方差上限。这个方案可以实现为深度生成模型并具有随机层数。

基于生成扩散模型的射频无线信道建模与采样

BriefGPT - AI 论文速递 ·