零 - shot 泛化的机器人运动规划的联邦强化学习

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文提出了一个零样本泛化的机器人运动规划学习控制策略的问题,并开发了一个联邦强化学习框架。该框架实现了多个学习者和中央服务器的协作学习,通过上传本地控制策略和估计归一化到达时间到云端,云端计算出全局最优解并广播最优策略给学习者。框架利用到达时间和安全性的零样本泛化保证,并通过蒙特卡洛仿真评估了框架。

🎯

关键要点

  • 提出了零样本泛化的机器人运动规划学习控制策略的问题。
  • 开发了联邦强化学习框架,实现多个学习者与中央服务器的协作学习。
  • 学习者无需共享原始数据,通过上传本地控制策略和估计归一化到达时间到云端。
  • 云端计算全局最优解并广播最优策略给学习者。
  • 学习者从云端和本地控制策略中选择下一次迭代的策略。
  • 框架利用到达时间和安全性的零样本泛化保证。
  • 提供了几乎必定收敛、几乎共识、Pareto 改进和最优间隙的理论保证。
  • 通过蒙特卡洛仿真评估了框架的有效性。
➡️

继续阅读