深度强化学习用于实时地面延误计划修订与对应航班延误分配

该论文研究了地面延误计划（GDP），它是一种在航空交通管理中常用的交通管理计划，用于协调机场的容量和需求差异。通过采用强化学习技术，该论文开发了两个强化学习模型：行为克隆（BC）和保守型 Q 学习（CQL）。这些模型旨在通过利用复杂的奖励函数来提高 GDP 的效率，该函数综合考虑了地面延误、空中延误和航站区域拥堵。该论文使用新瓦克自由国际机场（EWR）2019...

该论文研究了地面延误计划（GDP），通过强化学习技术开发了两个模型，旨在提高GDP的效率。结果显示模型在学习方面存在困难，讨论了挑战和模型在实际数据上的表现，并概述了未来方向。

地面延误计划强化学习技术挑战效率模型深度强化学习