本研究探讨了多种强化学习技术在无人机控制中的应用,提出了结合奖赏塑形和策略塑形的训练方法。结果表明,该方法在执行时间和离散度上优于单一策略训练,尽管回报较低。同时,研究评估了深度强化学习在现实机器人中的应用,强调了奖励设计对学习效率的重要性。
完成下面两步后,将自动完成登录并继续当前操作。