结构之法算法之道 ·

EgoVLA——根据第一视角的人类视频中训练的VLA模型：助力家具组装等人形灵巧操作任务的攻克(利用可穿戴手部追踪)

💡 原文中文，约5400字，阅读约需13分钟。

📝

内容提要

本文介绍了「七月在线」在机器人领域的研究，重点是通过第一人称视频训练人形机器人进行灵巧操作。EgoVLA模型利用人类视频数据，并结合少量机器人演示进行微调，提升了机器人在复杂场景中的操作能力，有效克服了传统数据采集的局限性，推动了机器人技术的发展。

🎯

关键要点

七月在线在机器人领域的研究集中于人形机器人的灵巧操作和展厅讲解。
EgoVLA模型通过第一人称视频训练人形机器人，克服了传统数据采集的局限性。
EgoVLA利用人类视频数据和少量机器人演示进行微调，提升机器人在复杂场景中的操作能力。
研究表明，人类动作空间与机器人动作空间之间的差异可以通过几何变换进行近似。
EgoVLA模型的输入包括视觉观测、语言指令和手部姿态，输出为机器人动作。
作者构建了一个大规模的人类第一视角操作数据集，包含丰富的技能视频序列和姿态标注。
EgoVLA模型基于NVILA-2B构建，利用视觉和语义推理能力进行动作预测。
EgoVLA模型在机器人演示数据上进行微调，实现了人类与机器人之间的动作映射。
通过三维变换和逆向运动学，EgoVLA能够将预测的手腕和手部姿态映射到机器人的执行器上。
重定向流程能够保持任务的有效性，表明小误差不会显著影响控制性能。

❓

延伸问答

EgoVLA模型的主要功能是什么？

EgoVLA模型通过第一人称视频训练人形机器人，提升其在复杂场景中的操作能力。

EgoVLA模型如何克服传统数据采集的局限性？

EgoVLA利用人类视频数据和少量机器人演示进行微调，避免了对大量机器人数据的依赖。

EgoVLA模型的输入和输出是什么？

EgoVLA的输入包括视觉观测、语言指令和手部姿态，输出为机器人动作。

EgoVLA模型是如何进行训练的？

EgoVLA首先在第一视角人类操作数据集上预训练，然后在机器人示范数据上进行微调。

EgoVLA模型在机器人操作中的应用场景有哪些？

EgoVLA模型可用于家具组装、电池更换等复杂任务的机器人操作。

EgoVLA模型如何实现人类与机器人之间的动作映射？

EgoVLA通过三维变换和逆向运动学将预测的手腕和手部姿态映射到机器人的执行器上。

🏷️

继续阅读

π0.7发布，VLA押出了机器人的GPT-3时刻
量子位发布的模型π0.7在机器人领域展示了组合泛化能力，能够根据新任务组合已有技能，无需专项训练，表现优于经过微调的专家模型。研究表明，该模型通过多样化的...
4.55亿美金！中国具身智能最大单笔融资诞生，高瓴红杉联手押注具身大脑
它石智航近日完成4.55亿美元的Pre-A轮融资，刷新中国具身智能单轮融资纪录。公司专注于具身智能的大脑研发，计划引进顶尖人才并推进预训练技术。AWE 3...
谷歌最强具身大脑发布！波士顿机器狗瞬间人模人样
谷歌DeepMind发布了Gemini Robotics-ER 1.6模型，显著提升了机器人空间推理能力。新模型能够自主读取仪表数据，成功率从23%提升至...
18家具身顶尖势力集结，RoboChallenge 打造全球最大具身模型竞技场
RoboChallenge完成第二批生态扩容，吸引8家顶尖企业入驻，推动具身智能产业发展。平台通过标准化真机测试提升评测体系，促进技术落地。新伙伴将提供硬...
空间智能第一股，开盘暴涨171%！李飞飞押注的赛道，杭州六小龙之一跑通了
群核科技近日在港股上市，股价大幅上涨。公司专注于空间智能，致力于让AI理解和重建物理世界。其技术积累了大量三维数据，推动AI从文本理解向空间理解转变。群核...
WPF 工业监控视图模型：实时转速、温度、压力曲线全搞定
本文介绍了一个基于WPF和LiveCharts的轻量级工业监控项目，模拟关键设备参数的实时监控。项目采用MVVM架构，具备实时数据显示、动态压力曲线和KP...