本研究探讨了深度强化学习中如何从随机网络初始化学习最佳策略,提出了隐式策略学习器TIPL,利用Transformer进行轨迹建模,并通过自回归处理策略网络权重。实验结果表明,TIPL能够有效优化策略网络。
完成下面两步后,将自动完成登录并继续当前操作。