本文提出了一个零样本泛化的机器人运动规划学习控制策略的问题,并开发了一个联邦强化学习框架。该框架实现了多个学习者和中央服务器的协作学习,通过上传本地控制策略和估计归一化到达时间到云端,云端计算出全局最优解并广播最优策略给学习者。框架利用到达时间和安全性的零样本泛化保证,并通过蒙特卡洛仿真评估了框架。
完成下面两步后,将自动完成登录并继续当前操作。