基于离线强化学习的完全数据驱动实现逼真交通信号控制

通过结合交通流理论和机器学习，我们提出了一种全面的数据驱动和免费模拟器的实现逼真交通信号控制框架 (D2TSC)。我们利用历史交通数据构建了一个奖励推断模型，通过粗粒度的交通数据来推断奖励信号，并进一步使用样本高效的离线 RL 方法，从真实世界交叉口的离线历史数据集中直接学习信号控制策略。通过广泛实验证明，我们的方法在传统方法和离线 RL 基准上取得了卓越的性能，并且具有更好的实际应用性。

通过结合交通流理论和机器学习，提出了一种全面的数据驱动和免费模拟器的实现逼真交通信号控制框架。利用历史交通数据构建奖励推断模型，通过粗粒度的交通数据推断奖励信号，并使用样本高效的离线RL方法学习信号控制策略。实验证明该方法在性能和实际应用性方面优于传统方法和离线RL基准。

强化学习