小红花·文摘

本文研究风险敏感强化学习，提出了Trajectory Q-Learning算法和RS-DisRL框架，分析了风险度量对策略有效性和样本复杂度的影响。通过创新的元算法和新颖的估计技术，推导出RSRL的遗憾上界，解决了模型泛化问题，并在多代理环境中提升了DMIX算法的性能，拓展了风险敏感强化学习的应用。