将价值迭代网络扩展到 5000 层,用于极长期规划

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

价值迭代网络(VIN)是一个全可微神经网络,内嵌有规划模块,可以学习规划和预测基于规划的推理。VIN策略通过学习显式规划计算,能够更好地推广到新的、未见过的域。

🎯

关键要点

  • 价值迭代网络(VIN)是一个全可微神经网络,内嵌有规划模块。
  • VIN可以学习规划和预测基于规划的推理,适用于强化学习策略。
  • VIN采用新颖的可微近似值迭代算法,表现为卷积神经网络。
  • VIN使用标准反向传播进行端到端训练。
  • 在离散和连续路径规划域及基于自然语言的搜索任务上评估VIN策略。
  • VIN策略通过学习显式规划计算,能够更好地推广到新的、未见过的域。
➡️

继续阅读