模型无关安全强化学习中的安全调制体演员-评论员方法及其在无人机悬停中的应用
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
我们开发了一种强化学习算法,确保非线性动态系统控制的安全性和收敛性。该算法在学习和应用中满足硬约束条件,并具有经典收敛保证。通过仿真验证,如四旋翼无人机的障碍避免问题,显示其优于现有模型。
🎯
关键要点
- 开发了一种可证明安全和收敛的非线性动态系统控制的强化学习算法。
- 该算法填补了控制理论的强安全性保证和强化学习理论的收敛保证之间的差距。
- 方法通过单阶段的基于采样的方式,在学习和应用中满足硬约束条件。
- 算法享有经典的收敛保证。
- 通过仿真验证了方法的有效性,包括四旋翼无人机的障碍避免问题。
- 结果显示该算法优于现有的基准模型。
➡️