小红花·文摘

本研究提出了OHIO框架，通过逆优化从静态离线数据集中学习层次策略，以应对高维动作空间和稀疏奖励的挑战。实验证明，该方法在机器人和网络优化问题上优于传统强化学习，显著提升了系统的鲁棒性。