小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种高效的连续时间强化学习（CTRL）算法，解决了其在一般函数逼近环境下的理论不足。通过乐观的置信集，首次提供样本复杂性保证，证明该算法在连续控制任务中能显著减少策略更新和运行次数。

Sample and Computationally Efficient Continuous-Time Reinforcement Learning with General Function Approximation

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过连续时间强化学习微调扩散生成模型，解决了传统离散时间强化学习的误差问题。实验结果表明，该方法在大型文本到图像模型的微调任务中表现优异。

Score as Action: Fine-Tuning Diffusion Generative Models via Continuous-Time Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究通过网格采样随机微分方程改进连续时间强化学习中的探索问题，特别是在跳跃情况下的应用价值显著。

关于网格采样极限随机微分方程

BriefGPT - AI 论文速递 ·