小红花·文摘

Dexmal原力灵机的ManiAgent通过多智能体协作重构机器人操控，形成“感知-推理-控制”的闭环。该系统将复杂任务分解为简单子任务，减少对大量数据的依赖，提升机器人在真实环境中的成功率至95.8%。ManiAgent还能够自动生成高质量数据，支持VLA模型训练。

Dexmal原力灵机提出ManiAgent，用多智能体协作重构机器人操控

量子位 ·

本研究提出了一种新型多模态掩码自编码器EmbodiedMAE，旨在缩小机器人操控中训练数据与实际任务之间的领域差距。该模型通过学习RGB、深度和点云表示，在DROID-3D数据集上进行训练，实验结果显示其在70个仿真任务和20个现实任务中表现优异，展现出良好的桌面操控应用潜力。

EmbodiedMAE：统一的3D多模态表示用于机器人操控

BriefGPT - AI 论文速递 ·

本研究提出了ManipDreamer，通过引入动作树和视觉引导，显著提升了机器人操控视频合成中的指令跟随和视觉质量。

ManipDreamer: Enhancing Robotic Manipulation World Models through Action Trees and Visual Guidance

BriefGPT - AI 论文速递 ·

本研究提出KUDA系统，结合关键点动态学习与视觉提示，解决开放词汇机器人操控在动态任务中的局限性。KUDA有效将目标规范转化为模型规划成本函数，展示了在多种操控任务中的优异表现及广泛应用潜力。

KUDA: Keypoints for Unifying Dynamic Learning and Visual Prompting in Open-Vocabulary Robotic Manipulation

BriefGPT - AI 论文速递 ·

本研究提出了一种基于视觉语言模型（VLM）的迭代关键点奖励（IKER）方法，旨在解决开放世界环境中的机器人操控任务规范挑战。IKER通过动态优化奖励函数，提高机器人在多步骤操控中的精确性和灵活性，实验证明其在动态环境中的有效性。

A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards

BriefGPT - AI 论文速递 ·

本研究提出了一种基于门控循环单元的变分自编码器，旨在学习机器人操控的潜在配置空间表示。该方法能够实时生成新配置，提升机器人操控的灵活性和适应性。

从人类手部到机器人肢体：一种用于远程操作的运动技能体现研究

BriefGPT - AI 论文速递 ·

VLABench是一个针对语言条件下机器人操控的长远推理任务的大规模基准，包含100类任务和2000多个对象，强调自然语言指令和推理能力。研究表明，现有视觉语言行动模型在这些任务中仍面临挑战。

VLABench: A Large-Scale Benchmark for Long-Horizon Reasoning Tasks in Language-Conditioned Robotics Manipulation

BriefGPT - AI 论文速递 ·

本研究提出了一种名为MALMM的多智能体LLM框架，旨在解决大语言模型在机器人操控中的幻觉和实时反馈不足的问题。该框架通过专门的LLM智能体进行高层规划和低层控制，能够动态适应环境变化并实现再规划。研究结果表明，该方法在九个RLBench任务中表现优异，显著改善了现有技术的不足。

Multi-Agent Large Language Model for Zero-Shot Robot Manipulation

BriefGPT - AI 论文速递 ·

本研究提出了VidMan框架，旨在解决机器人操控中的数据利用不足问题。通过两阶段训练机制，显著提高了预测精度，在CALVIN基准测试中相比现有模型提升了11.7%。

VidMan: Effective Robot Manipulation Using Implicit Dynamics from Video Diffusion Models

BriefGPT - AI 论文速递 ·

聚焦「视听触感官」协同配合的具身精细操纵，人大胡迪团队领衔探索机器人模态时变性挑战

机器之心 ·

本文介绍了机器人操控和视觉语言模型的研究进展，包括自主织物操纵算法、自动操作求解器（AMSolver）系统、ClothesNet数据集和基于物理概念的视觉语言模型（VLM）。研究表明，这些技术在机器人折叠衣物和处理语言指令的任务中显著提高了成功率和性能，展示了实际应用潜力。

SKT：将状态感知关键点轨迹与视觉-语言模型结合用于机器人服装操作

BriefGPT - AI 论文速递 ·

本文研究了结合视觉特征、预测模型和强化学习的视觉伺服机制，利用自监督学习和深度学习方法显著提高了样本效率和机器人操控准确性，有效解决了视觉扭曲和多视角问题，展示了在复杂任务中的应用效果。

轨道服务机器人的视觉伺服技术综述

BriefGPT - AI 论文速递 ·

本文探讨了一种新方法，利用图像集合和大型语言模型预测物体的物理属性，无需注释，适用于开放世界中的对象。实验表明该方法在质量、摩擦和硬度等属性推理任务中有效。此外，研究还涉及机器人操控和物体测量，提出自监督标记和主动感知策略，以提高物理参数估计的准确性。

基于人工智能的密度识别

BriefGPT - AI 论文速递 ·

研究人员利用Scilab-RL框架进行认知建模和目标导向的强化学习，基于APRL的深度强化学习使四足机器人在现实中高效学习行走。MBRL-Lib库为开发和调试提供了便利，多机器人强化学习的SMART平台支持多样化训练场景。通过硬件-软件协同设计，研究了安全高效的机器人乐高操控，实验成功率达到100%。

BricksRL：用乐高教育平台实现机器人与强化学习研究民主化

BriefGPT - AI 论文速递 ·

本文介绍了多个先进的文本到图像和3D生成模型，如ImageReward、DreamAvatar和Control3D。这些模型通过人类反馈和新技术显著提升了生成质量和一致性，解决了文本到3D生成中的几何不一致问题，并展示了在机器人操控和3D建模领域的应用潜力。

DreamReward: 人类偏好的文本生成三维图形

BriefGPT - AI 论文速递 ·

本文探讨了多模态模型GPT-4V的最新进展，提出了统一的VisionGPT-3D框架，以提升计算机视觉的效率和性能。研究表明，GPT-4V在视觉和语言任务中表现优异，能够执行复杂的视觉任务，并在推荐系统中展现潜力。同时，通过整合人类动作观察，增强了机器人操控能力，推动了视觉语言模型的发展。

VisionGPT：通用多模态框架基于视觉 - 语言理解 Agent

BriefGPT - AI 论文速递 ·

6-DoFusion是一个生成模型，可以在杂乱环境中生成物体的稳定配置，并进行物体放置和堆叠任务的评估。该模型的核心能力是机器人操控，能够推理出物体的稳定放置。

通过扩散模型获取六自由度稳定场

BriefGPT - AI 论文速递 ·