小红花·文摘

本文介绍了一种基于一般价值函数逼近的无模型强化学习算法，旨在实现有效学习而不依赖环境模型。该算法通过乐观奖励采样和独立同分布噪声促进探索，并在特定任务上证明了其有效性。此外，研究探讨了风险敏感的分布式强化学习框架及其算法复杂度，提出了新的算法以提高探索效率和泛化能力。