Flattening Hierarchies through Policy Bootstrapping
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新算法,通过优势加权重要性采样训练平面目标条件策略,解决了离线目标条件强化学习中的稀疏奖励和折扣问题。该方法无需生成(子)目标空间模型,并在复杂长期任务中展现出超越现有技术的潜力。
🎯
关键要点
- 本研究提出了一种新算法,通过优势加权重要性采样训练平面目标条件策略。
- 该算法解决了离线目标条件强化学习中的稀疏奖励和折扣问题。
- 该方法无需生成(子)目标空间模型。
- 在复杂长期任务中,该算法展现出超越现有技术的潜力。
➡️