小红花·文摘

本文探讨了通过内部记忆方法学习高维连续系统的策略，结合有监督学习和轨迹优化，解决物理控制问题。研究利用RNN和贝叶斯推断，提出了动态规划和主动推断的框架，强调在复杂环境中有效规划行动的重要性，并探索分层模型中的混合表示。