小红花·文摘

该研究提出了广义隐参数马尔可夫决策过程（GHP-MDPs），结合层次模型和潜变量，展示了高效的学习与泛化能力。开发的RoboAgent系统通过少量多模态数据训练多任务智能体，表现出良好的泛化性能。此外，研究提出了探索轨迹优化方法（ETO）和反思性策略优化（RPO），显著提升了智能体在复杂任务中的表现和自我改进能力。

PRAC：优化大型语言模型代理的原则推理与行动

BriefGPT - AI 论文速递 ·

该研究提出了多种机器人操作学习方法，如ROSIE数据扩充、RoboAgent多任务智能体和ManiCM实时操作模型，旨在提升机器人在新场景中的性能和鲁棒性。通过引入一致性约束和多模态数据，研究在双手灵巧操控和任务完成率方面取得了显著进展。

RDT-1B：用于双手操作的扩散基础模型

BriefGPT - AI 论文速递 ·