本研究提出KIPPO方法,利用库普曼近似辅助网络提升复杂非线性动态环境中的控制策略学习效果。实验结果表明,KIPPO在连续控制任务中性能提升6-60%,方差减少91%。
完成下面两步后,将自动完成登录并继续当前操作。