Dexmal原力灵机的ManiAgent通过多智能体协作重构机器人操控,形成“感知-推理-控制”的闭环。该系统将复杂任务分解为简单子任务,减少对大量数据的依赖,提升机器人在真实环境中的成功率至95.8%。ManiAgent还能够自动生成高质量数据,支持VLA模型训练。
本研究提出了一种新型多模态掩码自编码器EmbodiedMAE,旨在缩小机器人操控中训练数据与实际任务之间的领域差距。该模型通过学习RGB、深度和点云表示,在DROID-3D数据集上进行训练,实验结果显示其在70个仿真任务和20个现实任务中表现优异,展现出良好的桌面操控应用潜力。
本研究提出了ManipDreamer,通过引入动作树和视觉引导,显著提升了机器人操控视频合成中的指令跟随和视觉质量。
本研究提出KUDA系统,结合关键点动态学习与视觉提示,解决开放词汇机器人操控在动态任务中的局限性。KUDA有效将目标规范转化为模型规划成本函数,展示了在多种操控任务中的优异表现及广泛应用潜力。
本研究提出了一种基于视觉语言模型(VLM)的迭代关键点奖励(IKER)方法,旨在解决开放世界环境中的机器人操控任务规范挑战。IKER通过动态优化奖励函数,提高机器人在多步骤操控中的精确性和灵活性,实验证明其在动态环境中的有效性。
本研究提出了一种基于门控循环单元的变分自编码器,旨在学习机器人操控的潜在配置空间表示。该方法能够实时生成新配置,提升机器人操控的灵活性和适应性。
VLABench是一个针对语言条件下机器人操控的长远推理任务的大规模基准,包含100类任务和2000多个对象,强调自然语言指令和推理能力。研究表明,现有视觉语言行动模型在这些任务中仍面临挑战。
本研究提出了一种名为MALMM的多智能体LLM框架,旨在解决大语言模型在机器人操控中的幻觉和实时反馈不足的问题。该框架通过专门的LLM智能体进行高层规划和低层控制,能够动态适应环境变化并实现再规划。研究结果表明,该方法在九个RLBench任务中表现优异,显著改善了现有技术的不足。
本研究提出了VidMan框架,旨在解决机器人操控中的数据利用不足问题。通过两阶段训练机制,显著提高了预测精度,在CALVIN基准测试中相比现有模型提升了11.7%。
AIxiv专栏促进学术交流,报道超过2000篇研究。中国人民大学等机构提出MS-Bot框架,解决机器人操控中的模态时变性问题,通过阶段理解动态融合多传感器数据,提升精细操控性能。
本文介绍了机器人操控和视觉语言模型的研究进展,包括自主织物操纵算法、自动操作求解器(AMSolver)系统、ClothesNet数据集和基于物理概念的视觉语言模型(VLM)。研究表明,这些技术在机器人折叠衣物和处理语言指令的任务中显著提高了成功率和性能,展示了实际应用潜力。
本文研究了结合视觉特征、预测模型和强化学习的视觉伺服机制,利用自监督学习和深度学习方法显著提高了样本效率和机器人操控准确性,有效解决了视觉扭曲和多视角问题,展示了在复杂任务中的应用效果。
本文探讨了一种新方法,利用图像集合和大型语言模型预测物体的物理属性,无需注释,适用于开放世界中的对象。实验表明该方法在质量、摩擦和硬度等属性推理任务中有效。此外,研究还涉及机器人操控和物体测量,提出自监督标记和主动感知策略,以提高物理参数估计的准确性。
研究人员利用Scilab-RL框架进行认知建模和目标导向的强化学习,基于APRL的深度强化学习使四足机器人在现实中高效学习行走。MBRL-Lib库为开发和调试提供了便利,多机器人强化学习的SMART平台支持多样化训练场景。通过硬件-软件协同设计,研究了安全高效的机器人乐高操控,实验成功率达到100%。
本文介绍了多个先进的文本到图像和3D生成模型,如ImageReward、DreamAvatar和Control3D。这些模型通过人类反馈和新技术显著提升了生成质量和一致性,解决了文本到3D生成中的几何不一致问题,并展示了在机器人操控和3D建模领域的应用潜力。
本文探讨了多模态模型GPT-4V的最新进展,提出了统一的VisionGPT-3D框架,以提升计算机视觉的效率和性能。研究表明,GPT-4V在视觉和语言任务中表现优异,能够执行复杂的视觉任务,并在推荐系统中展现潜力。同时,通过整合人类动作观察,增强了机器人操控能力,推动了视觉语言模型的发展。
6-DoFusion是一个生成模型,可以在杂乱环境中生成物体的稳定配置,并进行物体放置和堆叠任务的评估。该模型的核心能力是机器人操控,能够推理出物体的稳定放置。
完成下面两步后,将自动完成登录并继续当前操作。