小红花·文摘 - 小红花技术领袖俱乐部

$Ψ0——人形全身VLA：先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM，再后训练MM-DiT，最后用AMO做下肢RL跟踪$

Ψ0——人形全身VLA：先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM，再后训练MM-DiT，最后用AMO做下肢RL跟踪

结构之法算法之道 ·

DreamZero——同时统一预测未来视觉状态与动作的世界动作模型：解决当下VLA如果人类不示教则理论强但具体操作不强的弊病，且提升任务泛化、本体泛化

DreamZero——同时统一预测未来视觉状态与动作的世界动作模型：解决当下VLA如果人类不示教则理论强但具体操作不强的弊病，且提升任务泛化、本体泛化

结构之法算法之道 ·

蚂蚁灵波开源的LingBot-VA是全球首个因果视频-动作模型，能够预测未来并执行任务，具备长期记忆和高效泛化能力，适应新任务。通过视频推演，机器人在复杂任务中表现优异，标志着通用机器人进入视频时代。

大事不好！机器人学会预测未来了

量子位 ·

NORA是一种小型开源视觉语言动作模型，旨在克服现有模型在视觉编码中的局限性。它通过降低计算开销和增强视觉推理，超越了大型视觉语言动作模型，成为实时机器人自主性的有效解决方案。

NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

BriefGPT - AI 论文速递 ·