基于 FTRL 的乐观在线非随机控制
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究提出了一种新的在线非随机控制框架,引入了乐观主义概念,并通过预测预报器预测未来成本,发现NSC可以从中受益。研究人员使用乐观正则化领导者算法家族解决了乐观学习问题,推进了NSC框架的发展,并实现了有效和稳健的学习控制器。
🎯
关键要点
- 该研究提出了一种新的在线非随机控制框架,结合了乐观主义概念。
- 研究利用预测预报器预测未来成本,使NSC受益。
- 问题被简化为具有延迟反馈的乐观学习问题。
- 使用乐观正则化领导者(OFTRL)算法家族解决乐观学习问题。
- 设计了OptFTRL-C,成为第一个拥有乐观策略遗憾界限的干扰行为控制器(DAC)。
- 新界限与预测预报器的准确性成正比,从完美预测的Ο(1)到所有预测失败时的算法最优Ο(T^0.5)。
- 研究解决了将不可信预测纳入控制系统的挑战,推动了NSC框架的发展。
🏷️
标签
➡️