小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种探索性扩散策略（EDP），旨在解决无监督强化学习中预训练策略适应性不足的问题。EDP通过扩散模型增强探索能力，为下游任务提供高效的初始化，实验结果表明其在预训练和微调阶段均表现优越。

Exploratory Diffusion Policy for Unsupervised Reinforcement Learning

BriefGPT - AI 论文速递 ·

物理测试暴击AI圈，DeepSeek R1稳超o1、Claude，我们已进入RL黄金时代

物理测试暴击AI圈，DeepSeek R1稳超o1、Claude，我们已进入RL黄金时代

机器之心 ·