小红花·文摘

本研究提出了一种新的离线强化学习方法，解决车间调度问题。通过将状态表示为异构图和使用可变行动空间，该方法在平衡期望奖励和模仿专家方案上表现优异。结合CQL的Q学习和熵奖励修正，离线方法在调度效果上优于在线方法，并强调多样化训练集的重要性。