本研究提出了一种技能发现保守Q学习(SD-CQL)方法,解决了离线多智能体强化学习在新任务中需重新训练的问题。SD-CQL通过重构观测值来发现技能,在小规模源任务上展现出优越的多任务泛化能力,实验结果显示其任务效率和泛化性能优于传统方法,部分任务性能提升达65%。
完成下面两步后,将自动完成登录并继续当前操作。