Stronger Safety Regret Bounds in Online Reinforcement Learning: A Case Study of Linear Quadratic Regulators
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究探讨了在线强化学习中如何在学习未知环境的同时满足安全约束,提出了针对受约束线性二次调节器的后悔界限,表明安全性提升了探索机会。
🎯
关键要点
- 本研究探讨在线强化学习中如何在学习未知环境的同时满足安全约束。
- 研究特别关注1维状态与动作空间内的情况。
- 提出了针对受约束的线性二次调节器的首个后悔界限,表示为$ ilde{O}_T( ext{sqrt}(T))$。
- 在某些噪声条件下,证明可以实现该后悔界限。
- 研究显示安全性增强了探索的机会,与无约束问题的后悔率相当。
➡️