小红花·文摘

本文提出了一个零样本泛化的机器人运动规划学习控制策略的问题，并开发了一个联邦强化学习框架。该框架实现了多个学习者和中央服务器的协作学习，通过上传本地控制策略和估计归一化到达时间到云端，云端计算出全局最优解并广播最优策略给学习者。框架利用到达时间和安全性的零样本泛化保证，并通过蒙特卡洛仿真评估了框架。