基于 FTRL 的乐观在线非随机控制

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该研究提出了一种新的在线非随机控制框架,引入了乐观主义概念,并通过预测预报器预测未来成本,发现NSC可以从中受益。研究人员使用乐观正则化领导者算法家族解决了乐观学习问题,推进了NSC框架的发展,并实现了有效和稳健的学习控制器。

🎯

关键要点

  • 该研究提出了一种新的在线非随机控制框架,结合了乐观主义概念。
  • 研究利用预测预报器预测未来成本,使NSC受益。
  • 问题被简化为具有延迟反馈的乐观学习问题。
  • 使用乐观正则化领导者(OFTRL)算法家族解决乐观学习问题。
  • 设计了OptFTRL-C,成为第一个拥有乐观策略遗憾界限的干扰行为控制器(DAC)。
  • 新界限与预测预报器的准确性成正比,从完美预测的Ο(1)到所有预测失败时的算法最优Ο(T^0.5)。
  • 研究解决了将不可信预测纳入控制系统的挑战,推动了NSC框架的发展。
➡️

继续阅读