小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了在线强化学习中如何在学习未知环境的同时满足安全约束，提出了针对受约束线性二次调节器的后悔界限，表明安全性提升了探索机会。

Stronger Safety Regret Bounds in Online Reinforcement Learning: A Case Study of Linear Quadratic Regulators

BriefGPT - AI 论文速递 ·