本研究提出了一种新的离线强化学习方法,解决车间调度问题。通过将状态表示为异构图和使用可变行动空间,该方法在平衡期望奖励和模仿专家方案上表现优异。结合CQL的Q学习和熵奖励修正,离线方法在调度效果上优于在线方法,并强调多样化训练集的重要性。
完成下面两步后,将自动完成登录并继续当前操作。