小红花·文摘

该研究提出了广义隐参数马尔可夫决策过程（GHP-MDPs），结合层次模型和潜变量，展示了高效的学习与泛化能力。开发的RoboAgent系统通过少量多模态数据训练多任务智能体，表现出良好的泛化性能。此外，研究提出了探索轨迹优化方法（ETO）和反思性策略优化（RPO），显著提升了智能体在复杂任务中的表现和自我改进能力。