小红花·文摘

本文探讨了强化学习中的可组合性框架，研究了分解子任务和学习策略的有效性。提出了基于镜头和参数化映射的机器学习算法，分析了分布式强化学习算法的收敛性，并讨论了在非马尔可夫环境下的贝叶斯强化学习。此外，研究了深度学习的新数学基础和部分可观察环境中的策略优化，展示了离散表示法在强化学习中的优势。