InternVLA-A1。该模型采用统一的 Mixture-of-Transformers 架构,协同三个专家模块,分别负责场景理解、视觉前瞻生成和动作执行。这些组件通过统一的掩码自注意力机制实现无缝交互
本文提出DualVLN,首个双系统视觉语言导航基础模型,将高层推理与实时控制解耦。System2作为大型VLM进行鲁棒推理并生成像素级目标,System1作为轻量级扩散策略模型将目标转换为连续轨迹。通过潜在表示连接两个系统,System2先训练后冻结,System1通过潜在查询提取特征。这种设计使System2能利用大规模数据扩展,System1专注于高频控制。实验表明该方法在动态环境中实现...
Qwen2.5-32B和Qwen2.5-VL-32B是通义千问系列的两个大模型,分别为纯文本和多模态模型。部署前需确认硬件要求,建议使用Docker环境并安装NVIDIA工具包。模型支持中英文,具备强大推理能力,适用于图文问答和多模态推理。
本文提出Hume模型,通过双系统架构实现机器人智能控制。System2基于预训练视觉语言模型(VLM),采用价值引导的重复采样机制进行慢思考,生成候选动作;System1则通过级联动作去噪实现90Hz实时控制。该模型创新性地结合了价值评估与动作生成,在保持实时性的同时提升了复杂任务的执行能力。实验表明,该方法能有效平衡思考速度与控制精度,为通用机器人策略提供了新思路。
jina-vlm是一个具有2.4B参数的视觉语言模型,支持29种语言的视觉问答,性能优越,适合消费级硬件。它结合了SigLIP2视觉编码器和Qwen3语言骨干,在多语言理解和视觉推理方面表现出色,并通过高效的注意力池化连接器减少视觉标记数量,保持多语言能力。
北京人形机器人创新中心于11月13日开源了具身智能VLM模型Pelican-VL 1.0,参数规模为7B和72B,性能超越GPT-5和Google Gemini,成为最强开源多模态大模型。该模型由女性团队主创,采用DPPO训练范式,提升了自我纠错能力,推动机器人在多场景中的应用。
本文摘要: 《Eagle2视觉语言模型的技术解析》聚焦英伟达开源的Eagle2模型,探讨其作为先进视觉语言模型(VLM)的核心技术。文章从三大维度展开:1) 数据策略方面,Eagle2构建180+数据源池,采用"多样性优先"原则,通过数据收集、过滤、选择和增强四步优化;2) 训练方法上,创新性提出三阶段训练策略,并设计平衡感知的贪心背包算法提升训练效率;3)...
本文最开始是属于此文《一文通透GR00T N1和N1.5——英伟达开源的人形VLA:VLM Eagle-2慢思考、动作专家DiT快反应,且可类似LAPA利用海量的无标注视频做训练》的 然因为我司于25年9...
LeVERB是一个基于视觉-语言指令的人形机器人全身控制模型,结合高频控制与低频规划,通过合成数据训练,灵活执行指令。其创新在于分层架构,有效整合视觉与语言,提升机器人运动能力。
本文介绍了NavA3框架,旨在解决具身导航中的高层次指令理解与空间定位问题。该框架包括全局策略和局部策略,利用视觉语言模型解析指令并确定目标位置,随后通过NaviAfford模型实现精确导航。研究表明,NavA3在真实环境中的长时导航任务中表现优异,展现出强大的跨载体能力。
CorrectNav是一种视觉-语言-动作导航模型,通过自我修正机制提升导航性能。该方法关注感知和动作错误,采用四个步骤进行自我纠正。在VLN-CE基准测试中,CorrectNav的成功率分别为65.1%和69.3%,优于现有模型,具备强大的纠错和动态障碍物规避能力。
本文介绍了G0双系统模型,结合视觉-语言-动作(VLA)与多模态规划,提出Galaxea开放世界数据集,旨在提升机器人在复杂任务中的自主感知与执行能力。该数据集包含500小时高保真数据,涵盖150个任务,确保数据一致性与可靠性。G0模型通过三阶段训练策略优化机器人性能,推动具身模型的发展。
Nota AI 推出 NVA(Nota Vision Agent),这是一种基于生成式 AI 的实时视频监控解决方案,能够理解物体关系和识别违规行为,显著提升监控效率与安全性。与传统系统相比,NVA 具备快速部署和灵活更新的优势,有效预防复杂事故,已在多个行业成功应用,并计划拓展至全球市场。
本文探讨了机器人在智能装配中的应用,介绍了Manual2Skill论文,强调机器人如何通过视觉语言模型(VLM)从手册中学习操作技能,实现自动化家具装配。该方法解析手册内容,生成分层装配图,并预测每个步骤的组件位姿,从而提高装配效率。
本文介绍了NaVid,一个用于视觉与语言导航的新模型。NaVid通过视频输入和自然语言指令,在连续环境中导航,无需地图或深度信息。该模型结合预训练的视觉编码器和大型语言模型,实现高效的动作规划,展现出优越的泛化能力和鲁棒性,尤其在仿真到现实的应用中表现突出。
本文探讨了通过知识隔离和联合训练提升视觉-语言-动作模型(VLA)性能的方法。研究表明,传统训练方法导致知识损失和推理速度慢。作者提出的知识隔离技术有效保护预训练模型知识,同时使模型适应机器人控制任务,从而加快训练和推理速度。
本文介绍了VITAL策略学习框架,通过将操作任务分为到达和局部交互两个阶段,结合视觉和触觉感知,提高机器人在精细操作中的成功率和泛化能力。VITAL利用视觉-语言模型进行目标定位,并通过触觉反馈实现高精度操作,克服了模仿学习和强化学习的局限性。
现代医学依赖影像解读,AI医疗视觉语言模型(LVLMs)面临数据稀缺和任务冲突的挑战。浙江大学等团队提出HealthGPT模型,通过异构知识适配,构建统一的医疗多模态理解与生成模型,推动医疗AI的发展。
完成下面两步后,将自动完成登录并继续当前操作。