小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI

InternVLA-A1。该模型采用统一的 Mixture-of-Transformers 架构,协同三个专家模块,分别负责场景理解、视觉前瞻生成和动作执行。这些组件通过统一的掩码自注意力机制实现无缝交互

InternVLA-A1——面向场景理解、未来状态生成、动作执行的一体化框架:融合VLM的语义理解与世界模型的未来动态预测

结构之法 算法之道
结构之法 算法之道 · 2026-01-22T15:12:29Z

本文提出DualVLN,首个双系统视觉语言导航基础模型,将高层推理与实时控制解耦。System2作为大型VLM进行鲁棒推理并生成像素级目标,System1作为轻量级扩散策略模型将目标转换为连续轨迹。通过潜在表示连接两个系统,System2先训练后冻结,System1通过潜在查询提取特征。这种设计使System2能利用大规模数据扩展,System1专注于高频控制。实验表明该方法在动态环境中实现...

DualVLN——基于像素目标点的双系统VLN基础模型:VLM做全局规划且预测中期路径,DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

结构之法 算法之道
结构之法 算法之道 · 2026-01-19T10:48:45Z

Qwen2.5-32B和Qwen2.5-VL-32B是通义千问系列的两个大模型,分别为纯文本和多模态模型。部署前需确认硬件要求,建议使用Docker环境并安装NVIDIA工具包。模型支持中英文,具备强大推理能力,适用于图文问答和多模态推理。

vLLM 部署Qwen2.5 LLM & VLM 大模型

安志合的学习博客
安志合的学习博客 · 2026-01-05T13:16:14Z

本文提出Hume模型,通过双系统架构实现机器人智能控制。System2基于预训练视觉语言模型(VLM),采用价值引导的重复采样机制进行慢思考,生成候选动作;System1则通过级联动作去噪实现90Hz实时控制。该模型创新性地结合了价值评估与动作生成,在保持实时性的同时提升了复杂任务的执行能力。实验表明,该方法能有效平衡思考速度与控制精度,为通用机器人策略提供了新思路。

Hume——系统1(VLM+评估头+动作头)与系统2(动作头)的组合:系统1做慢思考且通过价值评估选择对应的动作片段,让系统2持续扩散去噪

结构之法 算法之道
结构之法 算法之道 · 2025-12-29T11:03:03Z

VLM能否看清「分子世界」?人大联合清华、达摩院等机构发布首个微观空间智能基准MiSI-Bench

机器之心
机器之心 · 2025-12-26T06:11:00Z
Jina-VLM:小型多语言视觉语言模型

jina-vlm是一个具有2.4B参数的视觉语言模型,支持29种语言的视觉问答,性能优越,适合消费级硬件。它结合了SigLIP2视觉编码器和Qwen3语言骨干,在多语言理解和视觉推理方面表现出色,并通过高效的注意力池化连接器减少视觉标记数量,保持多语言能力。

Jina-VLM:小型多语言视觉语言模型

Jina AI
Jina AI · 2025-12-04T18:57:53Z

北京人形机器人创新中心于11月13日开源了具身智能VLM模型Pelican-VL 1.0,参数规模为7B和72B,性能超越GPT-5和Google Gemini,成为最强开源多模态大模型。该模型由女性团队主创,采用DPPO训练范式,提升了自我纠错能力,推动机器人在多场景中的应用。

北京人形开源最新VLM模型,推动具身智能再迈关键一步 !

量子位
量子位 · 2025-11-14T05:05:29Z

本文摘要: 《Eagle2视觉语言模型的技术解析》聚焦英伟达开源的Eagle2模型,探讨其作为先进视觉语言模型(VLM)的核心技术。文章从三大维度展开:1) 数据策略方面,Eagle2构建180+数据源池,采用"多样性优先"原则,通过数据收集、过滤、选择和增强四步优化;2) 训练方法上,创新性提出三阶段训练策略,并设计平衡感知的贪心背包算法提升训练效率;3)...

一文速览Eagle、Eagle 2、Eagle 2.5——英伟达开源的VLM:用于人形VLA GR00T N1和N1.5中

结构之法 算法之道
结构之法 算法之道 · 2025-10-06T05:52:04Z

本文最开始是属于此文《一文通透GR00T N1和N1.5——英伟达开源的人形VLA:VLM Eagle-2慢思考、动作专家DiT快反应,且可类似LAPA利用海量的无标注视频做训练》的 然因为我司于25年9...

GR00T N1.5的简介与微调——预训练和微调期间VLM被冻结且VLM升级为Eagle 2.5:教你如何逐步微调GR00T(含在宇树G1上的真机部署)

结构之法 算法之道
结构之法 算法之道 · 2025-09-20T16:43:09Z

LeVERB是一个基于视觉-语言指令的人形机器人全身控制模型,结合高频控制与低频规划,通过合成数据训练,灵活执行指令。其创新在于分层架构,有效整合视觉与语言,提升机器人运动能力。

LeVERB——潜在视觉-语言指令驱动的人形全身控制:快慢双系统下VLM感知环境和指令,VLA执行动作(完全基于合成数据进行训练)

结构之法 算法之道
结构之法 算法之道 · 2025-08-26T13:35:21Z

本文介绍了NavA3框架,旨在解决具身导航中的高层次指令理解与空间定位问题。该框架包括全局策略和局部策略,利用视觉语言模型解析指令并确定目标位置,随后通过NaviAfford模型实现精确导航。研究表明,NavA3在真实环境中的长时导航任务中表现优异,展现出强大的跨载体能力。

NavA3——双VLM架构下的先“推理解析”后“定位导航”:理解任意指令,导航至任意地点,查找任意目标

结构之法 算法之道
结构之法 算法之道 · 2025-08-21T09:35:25Z

CorrectNav是一种视觉-语言-动作导航模型,通过自我修正机制提升导航性能。该方法关注感知和动作错误,采用四个步骤进行自我纠正。在VLN-CE基准测试中,CorrectNav的成功率分别为65.1%和69.3%,优于现有模型,具备强大的纠错和动态障碍物规避能力。

CorrectNav——基于VLM构建带“自我纠正飞轮”的VLN:通过「视觉输入和语言指令」预测导航动作,且从动作和感知层面生成自我修正数据

结构之法 算法之道
结构之法 算法之道 · 2025-08-20T16:10:53Z

本文介绍了G0双系统模型,结合视觉-语言-动作(VLA)与多模态规划,提出Galaxea开放世界数据集,旨在提升机器人在复杂任务中的自主感知与执行能力。该数据集包含500小时高保真数据,涵盖150个任务,确保数据一致性与可靠性。G0模型通过三阶段训练策略优化机器人性能,推动具身模型的发展。

Galaxea G0——类似Hi Robot的「VLM高层推理 + VLA低层执行」:子任务标注数据训练前者VLM,且三阶段训练后者VLA

结构之法 算法之道
结构之法 算法之道 · 2025-08-14T09:04:03Z
Nota AI 推出韩国首个基于 VLM 的商业化实时视频监控解决方案

Nota AI 推出 NVA(Nota Vision Agent),这是一种基于生成式 AI 的实时视频监控解决方案,能够理解物体关系和识别违规行为,显著提升监控效率与安全性。与传统系统相比,NVA 具备快速部署和灵活更新的优势,有效预防复杂事故,已在多个行业成功应用,并计划拓展至全球市场。

Nota AI 推出韩国首个基于 VLM 的商业化实时视频监控解决方案

实时互动网
实时互动网 · 2025-08-12T07:14:07Z

本文探讨了机器人在智能装配中的应用,介绍了Manual2Skill论文,强调机器人如何通过视觉语言模型(VLM)从手册中学习操作技能,实现自动化家具装配。该方法解析手册内容,生成分层装配图,并预测每个步骤的组件位姿,从而提高装配效率。

Manual2Skill——让VLM从装配手册中提取装配步骤,随后做姿态估计,最终完成IKEA家具的自动组装(含IKEA-Manuals的详解)

结构之法 算法之道
结构之法 算法之道 · 2025-08-01T17:14:51Z

本文介绍了NaVid,一个用于视觉与语言导航的新模型。NaVid通过视频输入和自然语言指令,在连续环境中导航,无需地图或深度信息。该模型结合预训练的视觉编码器和大型语言模型,实现高效的动作规划,展现出优越的泛化能力和鲁棒性,尤其在仿真到现实的应用中表现突出。

NaVid——基于单目RGB捕获的视频让VLM规划「连续环境中VLN」的下一步:无需地图/里程计/深度信息(含后续升级版Uni-NaVid的详解)

结构之法 算法之道
结构之法 算法之道 · 2025-07-26T16:29:02Z

本文探讨了通过知识隔离和联合训练提升视觉-语言-动作模型(VLA)性能的方法。研究表明,传统训练方法导致知识损失和推理速度慢。作者提出的知识隔离技术有效保护预训练模型知识,同时使模型适应机器人控制任务,从而加快训练和推理速度。

π0.5的KI改进版——知识隔离:让VLM在不受动作专家负反馈的同时,输出离散动作token,并根据反馈做微调(而非冻结VLM)

结构之法 算法之道
结构之法 算法之道 · 2025-07-10T04:18:12Z

本文介绍了VITAL策略学习框架,通过将操作任务分为到达和局部交互两个阶段,结合视觉和触觉感知,提高机器人在精细操作中的成功率和泛化能力。VITAL利用视觉-语言模型进行目标定位,并通过触觉反馈实现高精度操作,克服了模仿学习和强化学习的局限性。

VITAL——结合ResNet视觉与MLP触觉且带语义增强的适用于「电源插拔」的可泛化BC:先VLM定位、后执行在线残差RL微调的策略(MLP作为动作头)

结构之法 算法之道
结构之法 算法之道 · 2025-07-03T09:01:43Z

现代医学依赖影像解读,AI医疗视觉语言模型(LVLMs)面临数据稀缺和任务冲突的挑战。浙江大学等团队提出HealthGPT模型,通过异构知识适配,构建统一的医疗多模态理解与生成模型,推动医疗AI的发展。

内含教程丨医疗VLM新突破!HealthGPT对复杂MRI模态理解准确率达99.7%,单一模型可处理多类生成任务

HyperAI超神经
HyperAI超神经 · 2025-07-02T05:14:42Z

打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力

机器之心
机器之心 · 2025-06-29T11:05:51Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码