结构之法算法之道 ·

基于人类视频的模仿学习与VLM推理规划：从DexMV、MimicPlay、SeeDo到人形OKAMI、Harmon(含R3M的详解)

💡 原文中文，约5100字，阅读约需13分钟。

📝

内容提要

文章讨论了从人类视频中学习机器人操作技能的挑战与进展。传统方法面临动作信息不足和人机差异问题。研究者通过无监督图像翻译和关键点检测改善学习效果，介绍了如Learning by Watching、DexMV等研究，利用视觉语言模型提升机器人模仿学习的准确性和实用性。

🎯

关键要点

文章讨论了从人类视频中学习机器人操作技能的挑战与进展。
传统方法面临动作信息不足和人机差异问题。
研究者通过无监督图像翻译和关键点检测改善学习效果。
介绍了Learning by Watching、DexMV等研究，利用视觉语言模型提升机器人模仿学习的准确性和实用性。
从人类视频学习已成为机器人的主流训练方法之一。
Learning by Watching将问题分解为人类到机器人的翻译、无监督关键点的表示学习和使用强化学习进行物理模仿。
无监督的图像到图像翻译用于实现人类到机器人的翻译。
Transporter模型用于无监督关键点检测，提供结构化表示以捕捉机器人手臂的姿态和交互物体的位置。
LbW框架由图像到图像的翻译网络、关键点检测器和策略网络组成，旨在提高机器人模仿学习的效果。
DexMV和DexVIP等研究进一步推动了该领域的发展。

❓

延伸问答

从人类视频中学习机器人操作技能的主要挑战是什么？

主要挑战包括缺乏明确的动作信息和人机之间的体现差距。

无监督图像翻译在机器人模仿学习中有什么作用？

无监督图像翻译用于实现人类到机器人的翻译，帮助机器人理解和模仿人类的动作。

Learning by Watching框架的组成部分有哪些？

该框架由图像到图像的翻译网络、关键点检测器和策略网络组成。

Transporter模型在关键点检测中如何工作？

Transporter模型通过在视频帧之间传输特征，检测每个翻译后视频帧中的关键点。

DexMV和DexVIP研究对机器人模仿学习有什么贡献？

DexMV和DexVIP研究推动了从人类视频中学习机器人操作技能的进展，提升了模仿学习的准确性和实用性。

如何通过强化学习实现物理模仿？

通过使用强化学习，机器人可以根据从人类视频中提取的关键点表示来预测与环境交互的动作。

🏷️

继续阅读

Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住
大晓机器人与港中文MMLab推出Kairos-Homeworld，这是首个全屋三维生成与物体级交互框架，利用30万套中国住宅户型数据为机器人提供训练环境。...
100亿砸向人形，不如先让10万台机器狗走进家庭
四足机器人逐渐进入家庭市场，销量超过2.5万台，显示出其在具身智能领域的潜力。相比人形机器人，四足机器人更安全、适应性强，满足家庭陪伴和交互需求。蔚蓝科技...
再谈响度战争：为什么你看的视频越来越「吵」了？
文章探讨了“响度战争”现象，即视频和音频内容为了吸引观众注意力而不断提高响度。这种趋势导致动态范围减小，影响听觉体验。虽然更响的声音能短期提升表现力，但可...
SuperX首个美国AI推理云中心在丹佛投入运营
SuperX AI Technology Limited在丹佛正式启用首个美国AI推理云中心，基于NVIDIA技术，提供高性能、低延迟的AI推理服务，已被...
AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...