小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
论文周报 |微软MAI-Thinking探索纯RL自我进化,AIME准确率达97%;无需架构修改,VLM³凭纯文本坐标实现3D任务泛化...速览一周AI前沿论文

微软 AI 团队提出了「爬山机器」框架,并训练了参数达到 1T 的 MoE 模型 MAI-Thinking-1。该模型通过自适应熵控制的强化学习,在无第三方数据的情况下实现了长期稳定的性能增长,并在多个基准测试中取得领先水平。

论文周报 |微软MAI-Thinking探索纯RL自我进化,AIME准确率达97%;无需架构修改,VLM³凭纯文本坐标实现3D任务泛化...速览一周AI前沿论文

HyperAI超神经
HyperAI超神经 · 2026-06-08T09:19:04Z
深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模

三维空间感知是自动驾驶和机器人领域的核心能力,旨在从二维图像恢复真实世界的空间结构。Meta与普林斯顿大学提出的VLM³框架,基于标准视觉语言模型,统一了物体级三维理解和公制深度估计等任务,显著提升了模型在细粒度三维感知中的表现。研究表明,通用视觉语言模型在三维表征能力上超出预期,为三维视觉领域的统一基础模型提供了新依据。

深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模

HyperAI超神经
HyperAI超神经 · 2026-06-08T08:06:39Z
OpenCV 5.0 发布,重写了 DNN 引擎,并内置了 LLM 和 VLM 支持

OpenCV 5.0于2026年6月6日发布,新增深度神经网络引擎重写、80% ONNX覆盖率和内置大型语言模型支持等功能,并针对多种硬件进行了优化,计划实现原生GPU支持。

OpenCV 5.0 发布,重写了 DNN 引擎,并内置了 LLM 和 VLM 支持

实时互动网
实时互动网 · 2026-06-08T02:02:17Z
Galaxea G0.5——升级“VLA自回归建模”范式:摒弃VLM上添加动作专家的模式,而是构建统一模型,用一套权重,在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)

星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列,通过共享权重实现推理与动作的耦合,提升机器人控制效率。该模型采用可学习的动作分词器和视觉记忆模块,优化动作生成过程,减少离散化负担,能够在零样本条件下分解任务,直接生成动作,增强对复杂场景的适应能力。

Galaxea G0.5——升级“VLA自回归建模”范式:摒弃VLM上添加动作专家的模式,而是构建统一模型,用一套权重,在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)

结构之法 算法之道
结构之法 算法之道 · 2026-06-04T10:18:09Z
GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2,且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

GR00T N1.6和N1.7是NVIDIA开发的视觉语言模型(VLM),用于机器人控制。N1.6改进了模型结构,支持灵活分辨率,并引入新数据集;N1.7在此基础上增强了模型的泛化能力,并在大量人类视频数据上进行预训练,提高了机器人控制的精确性和效率。

GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2,且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

结构之法 算法之道
结构之法 算法之道 · 2026-05-27T08:00:00Z
ViVa——基于视频生成模型的机器人RL价值估计:比原先基于VLM的价值函数,能更好的在动态交互环境中对当前进度和未来走势下所带来的回报做估计

本文探讨了觉-语言-动作(VLA)模型在机器人学习中的应用,提出了一种视频生成式价值模型(ViVa),通过预测未来状态来改进价值估计。ViVa结合预训练的视频生成模型、当前观测和本体感知,评估任务进展,提升机器人在复杂环境中的操作能力。研究表明,该方法在真实世界任务中表现优越,能够有效跟踪任务进度并处理新颖物体。

ViVa——基于视频生成模型的机器人RL价值估计:比原先基于VLM的价值函数,能更好的在动态交互环境中对当前进度和未来走势下所带来的回报做估计

结构之法 算法之道
结构之法 算法之道 · 2026-04-16T05:50:55Z
Ψ0——人形全身VLA:先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM,再后训练MM-DiT,最后用AMO做下肢RL跟踪

本文介绍了Ψ0模型,该模型结合大规模人类视频数据与真实机器人数据,训练出一种用于类人机器人灵巧运动的视觉-语言动作模型,能够有效提取运动先验,实现复杂的全身控制。

Ψ0——人形全身VLA:先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM,再后训练MM-DiT,最后用AMO做下肢RL跟踪

结构之法 算法之道
结构之法 算法之道 · 2026-03-21T11:15:57Z
DM0——面向物理AI的VLA:先VLM上混入物理数据做预训练,之后保持知识隔离的同时训练流匹配动作专家,最后做微调

本文介绍了DM0模型,这是一种面向体感智能的视觉-语言-动作(VLA)框架,旨在统一操作与导航。DM0通过多源三阶段训练流程,结合视觉、驾驶和体感数据,克服了传统模型的局限性,并在RoboChallenge基准测试中表现优异,展示了其在物理AI领域的潜力。

DM0——面向物理AI的VLA:先VLM上混入物理数据做预训练,之后保持知识隔离的同时训练流匹配动作专家,最后做微调

结构之法 算法之道
结构之法 算法之道 · 2026-02-24T16:09:17Z
X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

本文介绍了一种新型机器人学习模型X-VLA,采用软提示技术以提升跨具身机器人学习的适应性和泛化能力。通过引入可学习的嵌入,X-VLA有效解决了不同硬件和任务环境下的异质性问题,增强了模型在多样化数据集上的表现。该模型在多个基准测试中表现优异,展现出在灵巧操作和适应新领域方面的强大能力。

X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

结构之法 算法之道
结构之法 算法之道 · 2026-02-21T05:00:30Z
RDT2——基于UMI数据实现零样本且跨本体的泛化:先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)

RDT2是一种新型机器人基础模型,旨在实现跨本体、物体和场景的零样本迁移能力。通过使用UMI数据集和三阶段训练策略,RDT2能够高效处理多样化的真实世界任务,提升机器人在未见物体和场景中的泛化能力。该模型在微调实验中表现优异,尤其在复杂操作和动态任务中,展现出显著的性能提升。

RDT2——基于UMI数据实现零样本且跨本体的泛化:先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)

结构之法 算法之道
结构之法 算法之道 · 2026-02-13T14:13:39Z
MetaWorld——分层世界模型:融合 VLM 的语义推理能力、预测的未来动态环境、模仿学习的先验,及基于模型RL的对动态环境的在线自适应

本文介绍了MetaWorld,一个基于分层世界模型的机器人控制框架,旨在弥合高层语义理解与低层物理执行之间的鸿沟。该框架结合视觉-语言模型、模仿学习和强化学习的优势,通过分层架构进行任务解析和动作生成,提升机器人在动态环境中的适应性和泛化能力。

MetaWorld——分层世界模型:融合 VLM 的语义推理能力、预测的未来动态环境、模仿学习的先验,及基于模型RL的对动态环境的在线自适应

结构之法 算法之道
结构之法 算法之道 · 2026-02-07T10:14:29Z
InternVLA-A1——面向场景理解、未来状态生成、动作执行的一体化框架:融合VLM的语义理解与世界模型的未来动态预测

本文介绍了InternVLA-A1模型,该模型结合了多模态大语言模型的语义理解与动态预测能力,旨在提升机器人在复杂环境中的操作能力。通过构建包含真实和仿真数据的多层数据金字塔,InternVLA-A1有效解决了现有模型在场景变化适应性方面的不足,增强了机器人操作的鲁棒性与泛化能力。

InternVLA-A1——面向场景理解、未来状态生成、动作执行的一体化框架:融合VLM的语义理解与世界模型的未来动态预测

结构之法 算法之道
结构之法 算法之道 · 2026-01-22T15:12:29Z
DualVLN——基于像素目标点的双系统VLN基础模型:VLM做全局规划且预测中期路径,DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

本文回顾了作者创业11年的历程,并介绍了上海AI LAB发布的DualVLN模型。该模型结合视觉-语言导航推理与实时控制,采用双系统架构,分别负责高层推理和低层动作执行,提升了动态环境中的导航能力。实验结果表明,DualVLN在多种场景中表现优异,成功率高,导航误差低。

DualVLN——基于像素目标点的双系统VLN基础模型:VLM做全局规划且预测中期路径,DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

结构之法 算法之道
结构之法 算法之道 · 2026-01-19T10:48:45Z

Qwen2.5-32B和Qwen2.5-VL-32B是通义千问系列的两个大模型,分别为纯文本和多模态模型。部署前需确认硬件要求,建议使用Docker环境并安装NVIDIA工具包。模型支持中英文,具备强大推理能力,适用于图文问答和多模态推理。

vLLM 部署Qwen2.5 LLM & VLM 大模型

安志合的学习博客
安志合的学习博客 · 2026-01-05T13:16:14Z
Hume——系统1(VLM+评估头+动作头)与系统2(动作头)的组合:系统1做慢思考且通过价值评估选择对应的动作片段,让系统2持续扩散去噪

本文介绍了Hume模型,该模型结合双系统思维(System-1和System-2),提升机器人在复杂任务中的表现。Hume通过价值引导的重复采样和级联动作去噪机制,实现高效的动作预测和实时控制。System-2生成候选动作并评估其价值,System-1则快速执行细化动作,使机器人能够灵活应对动态环境。

Hume——系统1(VLM+评估头+动作头)与系统2(动作头)的组合:系统1做慢思考且通过价值评估选择对应的动作片段,让系统2持续扩散去噪

结构之法 算法之道
结构之法 算法之道 · 2025-12-29T11:03:03Z
VLM能否看清「分子世界」?人大联合清华、达摩院等机构发布首个微观空间智能基准MiSI-Bench

文章讨论了人工智能在各领域的应用,强调其在提升效率和决策支持中的重要性。AI技术迅速发展,正在改变我们的工作和生活方式。

VLM能否看清「分子世界」?人大联合清华、达摩院等机构发布首个微观空间智能基准MiSI-Bench

机器之心
机器之心 · 2025-12-26T06:11:00Z
Jina-VLM:小型多语言视觉语言模型

jina-vlm是一个具有2.4B参数的视觉语言模型,支持29种语言的视觉问答,性能优越,适合消费级硬件。它结合了SigLIP2视觉编码器和Qwen3语言骨干,在多语言理解和视觉推理方面表现出色,并通过高效的注意力池化连接器减少视觉标记数量,保持多语言能力。

Jina-VLM:小型多语言视觉语言模型

Jina AI
Jina AI · 2025-12-04T18:57:53Z

北京人形机器人创新中心于11月13日开源了具身智能VLM模型Pelican-VL 1.0,参数规模为7B和72B,性能超越GPT-5和Google Gemini,成为最强开源多模态大模型。该模型由女性团队主创,采用DPPO训练范式,提升了自我纠错能力,推动机器人在多场景中的应用。

北京人形开源最新VLM模型,推动具身智能再迈关键一步 !

量子位
量子位 · 2025-11-14T05:05:29Z
一文速览Eagle、Eagle 2、Eagle 2.5——英伟达开源的VLM:用于人形VLA GR00T N1和N1.5中

本文介绍了Eagle 2的设计与训练方法,强调数据的多样性和质量。Eagle 2结合视觉编码器与大语言模型,通过动态拼接和多阶段训练策略提升视觉-语言模型性能。

一文速览Eagle、Eagle 2、Eagle 2.5——英伟达开源的VLM:用于人形VLA GR00T N1和N1.5中

结构之法 算法之道
结构之法 算法之道 · 2025-10-06T05:52:04Z
GR00T N1.5的简介与微调——预训练和微调期间VLM被冻结且VLM升级为Eagle 2.5:教你如何逐步微调GR00T(含在宇树G1上的真机部署)

本文介绍了英伟达GR00T N1.5的升级与应用,强调其在机器人语言理解和视觉处理方面的显著提升。N1.5通过Eagle-2模型增强了文本和视觉的编码能力,提高了任务执行的准确性和效率。文章还分享了在长沙举办的线下营中,团队如何解决部署过程中的问题,并展示了N1.5在实际操作中的应用案例,如纸巾抓取。

GR00T N1.5的简介与微调——预训练和微调期间VLM被冻结且VLM升级为Eagle 2.5:教你如何逐步微调GR00T(含在宇树G1上的真机部署)

结构之法 算法之道
结构之法 算法之道 · 2025-09-20T16:43:09Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码