小红花·文摘

DSAC是一种新的强化学习算法，利用积累奖励的分布信息提高性能。它集成了基本分布式目标观点，考虑了行动和回报的随机性，并在连续控制基准测试中超越了现有技术。此外，还探讨了三个与风险相关的度量标准，并通过分布建模实现了风险敏感的强化学习。