本文提出了一种新方法IN-RIL,旨在解决模仿学习与强化学习结合中的不稳定性和样本效率低下的问题。通过定期注入模仿学习更新,IN-RIL提高了探索效率,实验结果表明其在多任务中显著提升了样本效率,并减少了性能崩溃现象。
本文研究了CFL和DFL在平滑非凸目标上的推广效果,发现CFL优于DFL,部分参与在CFL中优于全参与,DFL需要避免性能崩溃的拓扑要求。作者进行了大量实验验证了理论分析的有效性。
完成下面两步后,将自动完成登录并继续当前操作。