小红花·文摘

该研究提出了一种基于双向生成对抗网络的探索算法“探险者”，旨在提高深度强化学习的样本效率并避免局部最优。该方法通过估计状态的新颖性，在复杂任务中表现优异，并在多个基准任务上取得了竞争力的结果。