VLM技术前沿：多模态感知与智能决策的最新研究进展 - 小红花·文摘 - 小红花技术领袖俱乐部

沉浸式翻译 immersive translate

DM0 - VLA for Physical AI: Pre-training with Physical Data Mixed into VLM, followed by Training Flow Matching Action Experts while Maintaining Knowledge Isolation, and Finally Fine-tuning

DM0 - VLA for Physical AI: Pre-training with Physical Data Mixed into VLM, followed by Training Flow Matching Action Experts while Maintaining Knowledge Isolation, and Finally Fine-tuning

结构之法算法之道 ·

摘要：本文提出X-VLA模型，通过SoftPrompt机制解决跨具身机器人学习中的异质性问题。该模型为不同数据源分配可学习嵌入，有效整合硬件配置差异，提升泛化能力。训练分两阶段：先在异构数据上预训练通用策略，再通过微调适配新具身形态。实验表明，X-VLA能在仅增加少量参数的情况下，显著提升模型对多样化机器人系统的适应能力，为具身智能的跨平台部署提供新思路。（149字）

X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA：VLM做多模态感知，DiT-style做动作生成

结构之法算法之道 ·

本文探讨了视觉-语言-动作（VLA）模型在机器人领域的应用挑战与创新解决方案。当前VLA模型面临泛化能力不足、数据获取成本高、跨平台迁移困难等问题。研究团队提出RDT2模型，基于7B规模的Qwen2.5-VL预训练模型，采用三阶段训练策略：离散动作编码、连续概率建模和高效蒸馏。同时，通过改进UMI硬件系统收集了10,000+小时的多样化真实环境数据。这些创新旨在解决机器人学习中的关键难题，包...

RDT2——基于UMI数据实现零样本且跨本体的泛化：先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)

结构之法算法之道 ·

本文提出MetaWorld框架，通过分层世界模型解决人形机器人语义控制与物理执行的鸿沟问题。框架包含：1）语义规划层，利用VLM将任务描述映射为专家策略权重；2）物理执行层，采用TD-MPC2算法进行在线优化。创新性地引入动态专家选择机制，在保持物理可行性的同时实现环境自适应。实验表明，该框架有效弥合了高层语义推理与低层控制之间的差距，显著提升复杂任务的执行能力。

MetaWorld——分层世界模型：融合 VLM 的语义推理能力、预测的未来动态环境、模仿学习的先验，及基于模型RL的对动态环境的在线自适应

结构之法算法之道 ·

InternVLA-A1。该模型采用统一的 Mixture-of-Transformers 架构，协同三个专家模块，分别负责场景理解、视觉前瞻生成和动作执行。这些组件通过统一的掩码自注意力机制实现无缝交互

InternVLA-A1——面向场景理解、未来状态生成、动作执行的一体化框架：融合VLM的语义理解与世界模型的未来动态预测

结构之法算法之道 ·

本文提出DualVLN，首个双系统视觉语言导航基础模型，将高层推理与实时控制解耦。System2作为大型VLM进行鲁棒推理并生成像素级目标，System1作为轻量级扩散策略模型将目标转换为连续轨迹。通过潜在表示连接两个系统，System2先训练后冻结，System1通过潜在查询提取特征。这种设计使System2能利用大规模数据扩展，System1专注于高频控制。实验表明该方法在动态环境中实现...

DualVLN——基于像素目标点的双系统VLN基础模型：VLM做全局规划且预测中期路径，DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

结构之法算法之道 ·

Qwen2.5-32B和Qwen2.5-VL-32B是通义千问系列的两个大模型，分别为纯文本和多模态模型。部署前需确认硬件要求，建议使用Docker环境并安装NVIDIA工具包。模型支持中英文，具备强大推理能力，适用于图文问答和多模态推理。

vLLM 部署Qwen2.5 LLM & VLM 大模型

安志合的学习博客 ·

本文提出Hume模型，通过双系统架构实现机器人智能控制。System2基于预训练视觉语言模型(VLM)，采用价值引导的重复采样机制进行慢思考，生成候选动作；System1则通过级联动作去噪实现90Hz实时控制。该模型创新性地结合了价值评估与动作生成，在保持实时性的同时提升了复杂任务的执行能力。实验表明，该方法能有效平衡思考速度与控制精度，为通用机器人策略提供了新思路。

Hume——系统1(VLM+评估头+动作头)与系统2(动作头)的组合：系统1做慢思考且通过价值评估选择对应的动作片段，让系统2持续扩散去噪

结构之法算法之道 ·

VLM能否看清「分子世界」？人大联合清华、达摩院等机构发布首个微观空间智能基准MiSI-Bench

机器之心 ·

Jina-VLM：小型多语言视觉语言模型

Jina-VLM：小型多语言视觉语言模型

Jina AI ·

北京人形机器人创新中心于11月13日开源了具身智能VLM模型Pelican-VL 1.0，参数规模为7B和72B，性能超越GPT-5和Google Gemini，成为最强开源多模态大模型。该模型由女性团队主创，采用DPPO训练范式，提升了自我纠错能力，推动机器人在多场景中的应用。

北京人形开源最新VLM模型，推动具身智能再迈关键一步 !

量子位 ·

本文摘要：《Eagle2视觉语言模型的技术解析》聚焦英伟达开源的Eagle2模型，探讨其作为先进视觉语言模型(VLM)的核心技术。文章从三大维度展开：1) 数据策略方面，Eagle2构建180+数据源池，采用"多样性优先"原则，通过数据收集、过滤、选择和增强四步优化；2) 训练方法上，创新性提出三阶段训练策略，并设计平衡感知的贪心背包算法提升训练效率；3)...

一文速览Eagle、Eagle 2、Eagle 2.5——英伟达开源的VLM：用于人形VLA GR00T N1和N1.5中

结构之法算法之道 ·

本文最开始是属于此文《一文通透GR00T N1和N1.5——英伟达开源的人形VLA：VLM Eagle-2慢思考、动作专家DiT快反应，且可类似LAPA利用海量的无标注视频做训练》的然因为我司于25年9...

GR00T N1.5的简介与微调——预训练和微调期间VLM被冻结且VLM升级为Eagle 2.5：教你如何逐步微调GR00T(含在宇树G1上的真机部署)

结构之法算法之道 ·

LeVERB是一个基于视觉-语言指令的人形机器人全身控制模型，结合高频控制与低频规划，通过合成数据训练，灵活执行指令。其创新在于分层架构，有效整合视觉与语言，提升机器人运动能力。

LeVERB——潜在视觉-语言指令驱动的人形全身控制：快慢双系统下VLM感知环境和指令，VLA执行动作(完全基于合成数据进行训练)

结构之法算法之道 ·

本文介绍了NavA3框架，旨在解决具身导航中的高层次指令理解与空间定位问题。该框架包括全局策略和局部策略，利用视觉语言模型解析指令并确定目标位置，随后通过NaviAfford模型实现精确导航。研究表明，NavA3在真实环境中的长时导航任务中表现优异，展现出强大的跨载体能力。

NavA3——双VLM架构下的先“推理解析”后“定位导航”：理解任意指令，导航至任意地点，查找任意目标

结构之法算法之道 ·

CorrectNav是一种视觉-语言-动作导航模型，通过自我修正机制提升导航性能。该方法关注感知和动作错误，采用四个步骤进行自我纠正。在VLN-CE基准测试中，CorrectNav的成功率分别为65.1%和69.3%，优于现有模型，具备强大的纠错和动态障碍物规避能力。

CorrectNav——基于VLM构建带“自我纠正飞轮”的VLN：通过「视觉输入和语言指令」预测导航动作，且从动作和感知层面生成自我修正数据

结构之法算法之道 ·

本文介绍了G0双系统模型，结合视觉-语言-动作（VLA）与多模态规划，提出Galaxea开放世界数据集，旨在提升机器人在复杂任务中的自主感知与执行能力。该数据集包含500小时高保真数据，涵盖150个任务，确保数据一致性与可靠性。G0模型通过三阶段训练策略优化机器人性能，推动具身模型的发展。

Galaxea G0——类似Hi Robot的「VLM高层推理 + VLA低层执行」：子任务标注数据训练前者VLM，且三阶段训练后者VLA

结构之法算法之道 ·

Nota AI 推出韩国首个基于 VLM 的商业化实时视频监控解决方案

Nota AI 推出韩国首个基于 VLM 的商业化实时视频监控解决方案

实时互动网 ·

本文探讨了机器人在智能装配中的应用，介绍了Manual2Skill论文，强调机器人如何通过视觉语言模型（VLM）从手册中学习操作技能，实现自动化家具装配。该方法解析手册内容，生成分层装配图，并预测每个步骤的组件位姿，从而提高装配效率。

Manual2Skill——让VLM从装配手册中提取装配步骤，随后做姿态估计，最终完成IKEA家具的自动组装(含IKEA-Manuals的详解)

结构之法算法之道 ·

本文介绍了NaVid，一个用于视觉与语言导航的新模型。NaVid通过视频输入和自然语言指令，在连续环境中导航，无需地图或深度信息。该模型结合预训练的视觉编码器和大型语言模型，实现高效的动作规划，展现出优越的泛化能力和鲁棒性，尤其在仿真到现实的应用中表现突出。

NaVid——基于单目RGB捕获的视频让VLM规划「连续环境中VLN」的下一步：无需地图/里程计/深度信息(含后续升级版Uni-NaVid的详解)

结构之法算法之道 ·