简介 我们在 使用 SUMO 进行仿真(3)-车流的生成(Route 文件)中详细介绍了如何生成车流。但是在那 […]
本文介绍了用于信号灯控制的SUMO-RL库,重点讨论特征提取、动作设计和奖励计算,并通过示例代码展示如何与SUMO交互以提取信号灯特征和计算奖励。
本研究解决了离线强化学习中静态数据集规模和质量有限的问题,提出了一种基于搜索的不确定性估计方法SUMO,作为模型集合的替代方案。SUMO通过测量合成样本与真实数据集样本之间的交叉熵来表征不确定性,并有效提升了基础算法的性能,展示了其在离线强化学习中的潜在应用价值。
完成下面两步后,将自动完成登录并继续当前操作。