零 - shot 泛化的机器人运动规划的联邦强化学习
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文提出了一个零样本泛化的机器人运动规划学习控制策略的问题,并开发了一个联邦强化学习框架。该框架实现了多个学习者和中央服务器的协作学习,通过上传本地控制策略和估计归一化到达时间到云端,云端计算出全局最优解并广播最优策略给学习者。框架利用到达时间和安全性的零样本泛化保证,并通过蒙特卡洛仿真评估了框架。
🎯
关键要点
- 提出了零样本泛化的机器人运动规划学习控制策略的问题。
- 开发了联邦强化学习框架,实现多个学习者与中央服务器的协作学习。
- 学习者无需共享原始数据,通过上传本地控制策略和估计归一化到达时间到云端。
- 云端计算全局最优解并广播最优策略给学习者。
- 学习者从云端和本地控制策略中选择下一次迭代的策略。
- 框架利用到达时间和安全性的零样本泛化保证。
- 提供了几乎必定收敛、几乎共识、Pareto 改进和最优间隙的理论保证。
- 通过蒙特卡洛仿真评估了框架的有效性。
➡️