本研究通过使用通用的原始对偶框架,将经典优化和控制理论与强化学习方法结合,旨在统一和整合现有技术,并为学习的策略施加附加约束。实验证明了该方法的有效性,并为系统设计者提供了多种策略约束的工具箱。
完成下面两步后,将自动完成登录并继续当前操作。