通过策略空间中的最优传输测量强化学习中的探索 原文约300字,阅读约需1分钟。发表于:2024-02-14T00:00:00Z。 量化和比较强化学习算法通过知识传递在探索和学习方面的努力,并使用基于最优输运的度量方法比较强化学习和监督学习算法在数据分布空间中的路径总长度,从而提供有关强化学习算法的探索行为的洞见并比较不同算法的探索行为。 该论文提出了一种基于最优传输理论的风险感知强化学习框架,通过修改目标函数平衡风险考虑和传统强化学习目标。 平衡 强化学习 最优传输理论 目标函数 风险感知