用于多随机操作条件下直接驱动串翼实验平台的即插即用全面在线实时强化学习算法
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了生物仿真系统串翼所产生的非线性和不稳定气动干扰对运动控制的挑战,特别是在多随机操作条件下。提出的Concerto强化学习扩展(CRL2E)算法结合了物理启发式规则基础策略组合和扰动模块,显示出在前500步内实现安全稳定训练,并在多种操作条件下显著提高跟踪准确率,最优表现为提升8.3%到60.4%。
本研究提出了一种新型无人机控制框架,利用强化学习的异态actor-critic架构,实现从模拟到真实环境的快速转换,仅需18秒训练。该框架可在廉价无人机上实时控制,通过优化模拟器和课程学习提高训练效率,实验显示其在航迹跟踪方面表现优异。