小红花·文摘

本研究提出了一种新的混合离线-在线强化学习范式H2O，解决了传统方法的缺陷，并在多飞行器运动控制和空战模拟等领域展示了优越性。实验结果表明，H2O在跨领域任务中表现出高性能和灵活性，为复杂任务提供了新思路。