小红花·文摘

本文提出了一种基于预测模型的强化学习方法，通过历史数据构建虚拟空间，平衡长期与短期奖励。该方法在Fed-Batch实验中优于现有技术。此外，研究探讨了风险敏感型强化学习在交通信号控制中的应用，提出了有效的估算和优化程序，确保算法收敛。