小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Ψ0——人形全身VLA:先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM,再后训练MM-DiT,最后用AMO做下肢RL跟踪

本文介绍了Ψ0模型,该模型结合大规模人类视频数据与真实机器人数据,训练出一种用于类人机器人灵巧运动的视觉-语言动作模型,能够有效提取运动先验,实现复杂的全身控制。

Ψ0——人形全身VLA:先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM,再后训练MM-DiT,最后用AMO做下肢RL跟踪

结构之法 算法之道
结构之法 算法之道 · 2026-03-21T11:15:57Z
DreamZero——同时统一预测未来视觉状态与动作的世界动作模型:解决当下VLA如果人类不示教则理论强但具体操作不强的弊病,且提升任务泛化、本体泛化

DreamZero是一种新型世界动作模型,通过联合预测视频和动作,提升机器人在新环境中的泛化能力。与传统模型相比,DreamZero能够高效学习多样化技能,支持零样本泛化,并实现实时控制。其核心在于利用预训练的视频扩散模型,结合自回归架构和优化策略,提高推理速度和准确性。

DreamZero——同时统一预测未来视觉状态与动作的世界动作模型:解决当下VLA如果人类不示教则理论强但具体操作不强的弊病,且提升任务泛化、本体泛化

结构之法 算法之道
结构之法 算法之道 · 2026-02-08T09:16:32Z

蚂蚁灵波开源的LingBot-VA是全球首个因果视频-动作模型,能够预测未来并执行任务,具备长期记忆和高效泛化能力,适应新任务。通过视频推演,机器人在复杂任务中表现优异,标志着通用机器人进入视频时代。

大事不好!机器人学会预测未来了

量子位
量子位 · 2026-02-02T07:11:17Z

NORA是一种小型开源视觉语言动作模型,旨在克服现有模型在视觉编码中的局限性。它通过降低计算开销和增强视觉推理,超越了大型视觉语言动作模型,成为实时机器人自主性的有效解决方案。

NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码