DSAC是一种新的强化学习算法,利用积累奖励的分布信息提高性能。它集成了基本分布式目标观点,考虑了行动和回报的随机性,并在连续控制基准测试中超越了现有技术。此外,还探讨了三个与风险相关的度量标准,并通过分布建模实现了风险敏感的强化学习。
完成下面两步后,将自动完成登录并继续当前操作。