本文提出了一种基于预测模型的强化学习方法,通过历史数据构建虚拟空间,平衡长期与短期奖励。该方法在Fed-Batch实验中优于现有技术。此外,研究探讨了风险敏感型强化学习在交通信号控制中的应用,提出了有效的估算和优化程序,确保算法收敛。
完成下面两步后,将自动完成登录并继续当前操作。