小红花·文摘

本研究提出了一种高效的离线强化学习方法——流量Q学习（FQL），有效解决了传统方法中复杂动作分布的问题。通过训练一步政策，避免了不稳定的递归反向传播，表现优异，适用性广泛。