机器之心 ·

3D具身基础模型！北大提出Lift3D赋予2D大模型鲁棒的3D操纵能力

💡 原文中文，约8000字，阅读约需20分钟。

📝

内容提要

Lift3D框架通过增强2D预训练模型的3D空间感知能力，提升了机器人操纵策略。该方法结合隐式与显式3D表示，在多种仿真和真实场景中表现出色，验证了其鲁棒性和泛化能力。研究团队来自北京大学和智源研究院。

🎯

关键要点

Lift3D框架增强了2D预训练模型的3D空间感知能力，提升了机器人操纵策略。
该方法结合隐式与显式3D表示，在多种仿真和真实场景中表现出色，验证了其鲁棒性和泛化能力。
研究团队来自北京大学和智源研究院，作者包括多名博士生。
3D几何信息对机器人操纵任务至关重要，现有方法面临数据缺乏和空间信息丢失的挑战。
Lift3D通过设计任务感知的掩码自编码器和2D基础模型提升策略，增强了3D空间感知能力。
Lift3D在多个仿真环境和真实场景中实现了SOTA的操纵效果，验证了其可扩展性。
Lift3D的隐式3D表示通过掩蔽任务相关的可操作区域并重建深度几何信息来增强2D模型的3D表达能力。
显式3D表示通过将点云数据与2D位置嵌入建立映射关系，提升了3D模仿学习效率。
在真实世界实验中，Lift3D在每个任务上只需30个演示数据即可学习新的操控技能。
Lift3D在不同操纵物体、背景场景和光照条件下展现出强大的泛化能力。
Lift3D在MetaWorld基准测试中达到了83.9的平均成功率，优于现有的2D和3D方法。
在真实世界任务中，Lift3D能够有效理解3D空间场景，并做出准确的位姿预测。
Lift3D展现出良好的可扩展性，随着2D基础模型参数规模的增加，任务表现得以提升。

❓

延伸问答

Lift3D框架的主要功能是什么？

Lift3D框架通过增强2D预训练模型的3D空间感知能力，提升了机器人操纵策略。

Lift3D如何解决现有3D机器人操纵方法的挑战？

Lift3D结合隐式与显式3D表示，增强了2D模型的3D空间感知能力，解决了数据缺乏和空间信息丢失的问题。

Lift3D在真实世界实验中的表现如何？

在真实世界实验中，Lift3D在每个任务上只需30个演示数据即可学习新的操控技能，展现出强大的泛化能力。

Lift3D的隐式和显式3D表示有什么区别？

隐式3D表示通过掩蔽任务相关区域并重建深度几何信息，而显式3D表示则通过将点云数据与2D位置嵌入建立映射关系。

Lift3D在MetaWorld基准测试中的成功率是多少？

Lift3D在MetaWorld基准测试中达到了83.9的平均成功率，优于现有的2D和3D方法。

Lift3D的可扩展性如何？

Lift3D展现出良好的可扩展性，随着2D基础模型参数规模的增加，任务表现得以提升。

🏷️

继续阅读

LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
SKAI Intelligence与首尔大学AI研究院开展合作研究
SKAI Intelligence与首尔大学AI研究院签署合作备忘录，联合研究机器人感知与抓取技术，重点包括物理AI核心视觉、多物体识别与位姿估计，以提升...
一个GPT Plus会员的钱，够机器人跑一个月世界模型了
智在无界推出的Being-H-Flash隐式世界模型，月算力成本仅150元，能够在百TOPS级芯片上实现实时运行。该模型通过潜空间推理，降低了计算开销，提...
模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...
Nvidia最新模型现已上线
Nvidia发布了Nemotron 3 Ultra模型，拥有5500亿参数，支持高达100万标记的上下文窗口。该模型速度显著提升，能节省用户30%的成本。...
Mate Security的Asaf Wiener让每位后端工程师成为模型路由器。他这样做是正确的。
Mate Security的CEO Asaf Wiener强调AI原生公司的成本管理重要性。他通过细分AI模型的成本，确保每个后端工程师参与模型选择和评估...