本研究提出了MaxInfoRL框架,通过最大化信息增益来提升强化学习的探索能力,解决了任务奖励与内在奖励的平衡问题。研究表明,该方法在复杂场景下优于传统方法,特别适用于难以探索的问题。
该文介绍了一种新的无监督技能发现算法DISCO-DANCE,它通过选择具有未探索状态潜力最高的引导技能,引导其他技能跟随引导技能,然后引导的技能在未探索的状态下分散以最大化它们的可区分性,以增强探索能力。
本文介绍了一种名为双生成流网络(DGFNs)的方法,可以在药物发现中生成多样化的候选物分子。通过引入强化学习和双深度 Q 学习的概念,DGFNs 可以有效地增强在稀疏奖励领域和高维状态空间中的探索能力。
本文介绍了一种名为GFlowGNN的图主动学习方法,利用生成式流网络建模图,表现出良好的探索能力和可转移性。
完成下面两步后,将自动完成登录并继续当前操作。