小红花·文摘

本研究通过使用通用的原始对偶框架，将经典优化和控制理论与强化学习方法结合，旨在统一和整合现有技术，并为学习的策略施加附加约束。实验证明了该方法的有效性，并为系统设计者提供了多种策略约束的工具箱。