本研究提出了一种探索性扩散策略(EDP),旨在解决无监督强化学习中预训练策略适应性不足和异质数据处理的问题。实验结果表明,EDP在预训练和微调阶段均表现优异。
完成下面两步后,将自动完成登录并继续当前操作。