小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种对抗估计方法，旨在提高深度强化学习在稀疏奖励环境中的样本效率，通过利用少量人类轨迹加速算法的收敛。

Search-based Adversarial Estimation to Improve Sample Efficiency in Off-Policy Reinforcement Learning

BriefGPT - AI 论文速递 ·