小红花·文摘

本研究探讨了深度强化学习中如何从随机网络初始化学习最佳策略，提出了隐式策略学习器TIPL，利用Transformer进行轨迹建模，并通过自回归处理策略网络权重。实验结果表明，TIPL能够有效优化策略网络。