Dexmal原力灵机的ManiAgent通过多智能体协作重构机器人操控,形成“感知-推理-控制”的闭环。该系统将复杂任务分解为简单子任务,减少对大量数据的依赖,提升机器人在真实环境中的成功率至95.8%。ManiAgent还能够自动生成高质量数据,支持VLA模型训练。
本研究提出了一种新型多模态掩码自编码器EmbodiedMAE,旨在缩小机器人操控中训练数据与实际任务之间的领域差距。该模型通过学习RGB、深度和点云表示,在DROID-3D数据集上进行训练,实验结果显示其在70个仿真任务和20个现实任务中表现优异,展现出良好的桌面操控应用潜力。
本研究提出了ManipDreamer,通过引入动作树和视觉引导,显著提升了机器人操控视频合成中的指令跟随和视觉质量。
本研究提出KUDA系统,结合关键点动态学习与视觉提示,解决开放词汇机器人操控在动态任务中的局限性。KUDA有效将目标规范转化为模型规划成本函数,展示了在多种操控任务中的优异表现及广泛应用潜力。
本研究提出了一种基于门控循环单元的变分自编码器,旨在学习机器人操控的潜在配置空间表示。该方法能够实时生成新配置,提升机器人操控的灵活性和适应性。
本研究提出了一种名为MALMM的多智能体LLM框架,旨在解决大语言模型在机器人操控中的幻觉和实时反馈不足的问题。该框架通过专门的LLM智能体进行高层规划和低层控制,能够动态适应环境变化并实现再规划。研究结果表明,该方法在九个RLBench任务中表现优异,显著改善了现有技术的不足。
本研究提出了VidMan框架,旨在解决机器人操控中的数据利用不足问题。通过两阶段训练机制,显著提高了预测精度,在CALVIN基准测试中相比现有模型提升了11.7%。
AIxiv专栏促进学术交流,报道超过2000篇研究。中国人民大学等机构提出MS-Bot框架,解决机器人操控中的模态时变性问题,通过阶段理解动态融合多传感器数据,提升精细操控性能。
本研究提出了一种人机协作的视觉强化学习系统,解决了传统强化学习在复杂机器人操控中的挑战。该系统在1到2.5小时内实现了高成功率和快速循环时间,优于以往方法。
本研究提出了SkillMimicGen(SkillGen),旨在解决机器人操控中模仿学习对大数据集需求的高成本问题。该系统通过少量人类演示生成数据集,显著提升了数据生成和策略学习性能,成功生成超过24,000个演示,实现了零样本的模拟到真实转移。
研究提出了DeformPAM框架,用于解决机器人操控中复杂长时间可变物体任务。通过偏好学习和奖励引导,该方法实现了数据高效学习。实验表明,DeformPAM在有限数据下显著提升了任务完成质量和效率,克服了传统模仿学习的高维状态空间和动态复杂性问题。
6-DoFusion是一个生成模型,可以在杂乱环境中生成物体的稳定配置,并进行物体放置和堆叠任务的评估。该模型的核心能力是机器人操控,能够推理出物体的稳定放置。
完成下面两步后,将自动完成登录并继续当前操作。