嵌入式扫描:面向身体智能的整体多模态 3D 感知套件
原文中文,约500字,阅读约需2分钟。发表于: 。在计算机视觉和机器人领域,基于自身的智能体需要能够探索环境并执行人类指令,这要求其能够从第一人称观察中完全理解 3D 场景,并将其以语言的形式进行交互。本研究引入了一种名为 EmbodiedScan 的多模式、自我中心的 3D 感知数据集和基准,用于整体的 3D 场景理解。通过该数据集,我们还引入了一种名为 Embodied Perceptron...
研究人员提出了一种根植于三维世界的通用代理人LEO,通过训练和大规模数据集,LEO在感知、推理、规划和行动方面表现出色。实验证明LEO在三维字幕、问题解答、推理、导航和机器人操作等任务中具有出色能力。