小红花·文摘

本文探讨了多任务离线强化学习中的数据共享问题，提出了保守数据共享方法和新算法MOReL，以提升任务表示学习的泛化能力。研究比较了不确定性启发式方法，优化了模型训练过程，并提出了基于风险外推的领域不变模型，最终提高了强化学习的性能和效率。