神经网络驱动的奖励预测作为启发式:推进移动机器人路径规划中的Q学习

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本研究提出NDR-QL方法,以解决Q学习收敛速度慢的问题。NDR模型的预测准确率提高了5%,收敛速度比基线快90%。

🎯

关键要点

  • 本研究提出NDR-QL方法,解决Q学习收敛速度慢的问题。
  • NDR模型的预测准确率提高了5%。
  • NDR-QL方法的收敛速度比基线Q学习方法快90%。
➡️

继续阅读