本研究提出了一种离线强化学习中的离散扩散技能(DDS)算法,旨在解决离散技能空间的开发问题。该算法结合变换器编码器和扩散解码器,显著提升了长时间任务的表现,在AntMaze-v2基准测试中性能提高至少12%,同时增强了可解释性和训练稳定性。
完成下面两步后,将自动完成登录并继续当前操作。