不确定性下的实时系统最优交通路由 -- 物理模型能否提升强化学习?
原文中文,约300字,阅读约需1分钟。发表于: 。TransRL 是一个整合了物理模型和强化学习的新算法,通过建立基于物理模型的确定性策略,并从可微分和随机的教师策略中学习,实现了增强的性能、可靠性和可解释性;实验结果表明 TransRL 在实际网络数据上比基于交通模型的方法更具适应性和学习性,并且比 PPO 和 SAC 等基线强化学习算法具有更高的可靠性和可解释性。
TransRL是整合了物理模型和强化学习的新算法,通过建立基于物理模型的确定性策略,并从可微分和随机的教师策略中学习,实现了增强的性能、可靠性和可解释性。实验结果表明TransRL在实际网络数据上比基于交通模型的方法更具适应性和学习性,并且比PPO和SAC等基线强化学习算法具有更高的可靠性和可解释性。