小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Galaxea G0.5——升级“VLA自回归建模”范式:摒弃VLM上添加动作专家的模式,而是构建统一模型,用一套权重,在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)

星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列,通过共享权重实现推理与动作的耦合,提升机器人控制效率。该模型采用可学习的动作分词器和视觉记忆模块,优化动作生成过程,减少离散化负担,能够在零样本条件下分解任务,直接生成动作,增强对复杂场景的适应能力。

Galaxea G0.5——升级“VLA自回归建模”范式:摒弃VLM上添加动作专家的模式,而是构建统一模型,用一套权重,在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)

结构之法 算法之道
结构之法 算法之道 · 2026-06-04T10:18:09Z
“VLA和世界模型都不是终局,会有物理世界独有的模型” | 蚂蚁灵波沈宇军@AIGC2026

蚂蚁灵波科技首席科学家沈宇军在2026中国AIGC产业峰会上指出,AI 2.0将从数字世界转向物理世界,强调数据的重要性。他认为机器人行业面临数据短缺,未来需结合VLA和世界模型,推动具身智能的发展。灵波致力于成为机器人时代的“安卓系统”,通过标准化数据和智能化操作提升机器人应用。预计到2028年,具身智能将快速发展。

“VLA和世界模型都不是终局,会有物理世界独有的模型” | 蚂蚁灵波沈宇军@AIGC2026

量子位
量子位 · 2026-05-25T06:56:42Z
Realtime-VLA V2——如何让vla运行的更快:从让π0实时抓取下落的钢笔到让 VLA 运行得更快、更平滑且更精确

本文探讨了基于消费级GPU的实时视觉-语言模型(VLA)机器人控制技术。通过优化推理流程,推理延迟降低至27.3毫秒,抓取成功率达到100%。研究表明,VLA在机器人控制中可有效满足实时操作需求。

Realtime-VLA V2——如何让vla运行的更快:从让π0实时抓取下落的钢笔到让 VLA 运行得更快、更平滑且更精确

结构之法 算法之道
结构之法 算法之道 · 2026-05-20T06:41:47Z
机器人的终局:英伟达 Jim Fan 宣告 VLA 时代结束,WAM 登场

英伟达的Jim Fan宣布VLA(视觉-语言-动作)架构已过时,推出新范式WAM(世界动作模型),代表作DreamZero。WAM通过人类第一人称视频训练,提升机器人自主设计能力,预计2040年前实现机器人自我制造。新模型强调视觉和动作的重要性,告别遥操作数据,采用外骨骼装置采集数据。

机器人的终局:英伟达 Jim Fan 宣告 VLA 时代结束,WAM 登场

宝玉的分享
宝玉的分享 · 2026-05-10T00:00:00Z
VLA死了,遥操也死了!英伟达机器人一号位说的

在红杉AI Ascent 2026大会上,Jim Fan宣布VLA和遥操作已不再适用,未来将依赖世界动作模型(WAM)和人类传感器数据。新范式通过模拟物理世界状态和动作微调,结合强化学习,推动机器人技术进步。EgoScale和Dream Zero等新策略将提升机器人在各种任务中的灵活性和自主性,预示着机器人行业的重大变革。

VLA死了,遥操也死了!英伟达机器人一号位说的

量子位
量子位 · 2026-05-09T06:24:18Z
LWD——大规模部署中训练VLA的RL框架:结合“分布隐式价值学习”与“基于QAM的策略提取”,先离线RL预训练,后在线RL微调中跑通“部署-数据收集-训练”的持续进化循环

本文讨论了在真实世界中部署通用机器人策略的挑战,提出了一种名为“部署中学习”(LWD)的框架,通过车队规模的离线到在线强化学习(RL)实现策略的持续改进。该方法结合离线数据和在线交互,利用多样化的部署经验,优化策略以适应新任务和环境。作者提出的分布式隐式价值学习(DIVL)和带有伴随匹配的Q学习(QAM)技术,旨在提高策略的稳定性和泛化能力,实现高效的后训练。

LWD——大规模部署中训练VLA的RL框架:结合“分布隐式价值学习”与“基于QAM的策略提取”,先离线RL预训练,后在线RL微调中跑通“部署-数据收集-训练”的持续进化循环

结构之法 算法之道
结构之法 算法之道 · 2026-04-30T14:53:08Z
DeepSeek阮翀加盟元戎首秀,详解基座VLA,研发提效10倍

阮翀,元戎首席科学家,分享了如何利用40B基座模型提升自动驾驶研发效率。他强调数据表征和质量评估的重要性,指出基座模型加速了模型迭代,缩短了开发时间。同时,他讨论了物理AI的闭环概念,认为这是AI进入现实世界的关键,并表示选择转向物理AI是因为其更具挑战性和使命感。

DeepSeek阮翀加盟元戎首秀,详解基座VLA,研发提效10倍

量子位
量子位 · 2026-04-26T04:16:23Z
物理优先+VLA闭环进化:高德ABot-World世界模型,破解具身智能零样本泛化难题

高德推出的ABot-World模型是全球首款具身智能机器人操作系统,采用双引擎架构,突破了物理一致性、动作可控性和零样本泛化能力。该模型通过物理优先原则生成高保真场景,支持精确的动作条件化控制,提升了机器人在真实环境中的可靠性。ABot-World在多个评测中表现优异,展现了其在工业级应用中的潜力。

物理优先+VLA闭环进化:高德ABot-World世界模型,破解具身智能零样本泛化难题

量子位
量子位 · 2026-04-21T08:45:58Z
π0.7发布,VLA押出了机器人的GPT-3时刻

量子位发布的模型π0.7在机器人领域展示了组合泛化能力,能够根据新任务组合已有技能,无需专项训练,表现优于经过微调的专家模型。研究表明,该模型通过多样化的提示和质量标签,有效利用各种数据,提升学习效果,标志着具身智能的新发展,推动机器人技术进步。

π0.7发布,VLA押出了机器人的GPT-3时刻

量子位
量子位 · 2026-04-17T06:57:35Z
MEM——解决VLA长时记忆问题的框架:短时靠高效视频编码抓细节,长线凭文本记忆系统记进度

PI公司提出了一种多尺度具身记忆(MEM)架构,结合短期视觉记忆和长期语言记忆,以提升机器人在复杂任务中的表现。该系统通过视频编码器处理短期记忆,并利用语言机制跟踪长期事件,使机器人能够有效执行长达15分钟的任务,如厨房整理,同时解决了遮挡问题,增强了在动态环境中的适应能力。

MEM——解决VLA长时记忆问题的框架:短时靠高效视频编码抓细节,长线凭文本记忆系统记进度

结构之法 算法之道
结构之法 算法之道 · 2026-04-11T16:22:06Z
RLT——VLA引导的在线RL:极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调,最终从粗到细搞定拧螺丝和充电器插入

本文讨论了一种轻量级的在线强化学习方法,用于微调视觉-语言-动作模型。研究者通过引入“RL token”提高样本效率,使得模型能够快速适应真实世界任务。该方法结合冻结的VLA和小型actor-critic网络,优化关键任务阶段的表现,旨在实现高效的在线微调,同时保持泛化能力。

RLT——VLA引导的在线RL:极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调,最终从粗到细搞定拧螺丝和充电器插入

结构之法 算法之道
结构之法 算法之道 · 2026-03-26T03:44:34Z
Momenta不选VLA选世界模型,大众首发!曹旭东:传感器重要性最后

Momenta推出R7大模型,利用世界模型增强AI对物理世界的理解。CEO曹旭东表示,传统模仿学习无法超越人类,转向强化学习是关键。Momenta强调算法架构和数据的重要性,传感器排在第三位。

Momenta不选VLA选世界模型,大众首发!曹旭东:传感器重要性最后

量子位
量子位 · 2026-03-23T08:47:07Z
Ψ0——人形全身VLA:先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM,再后训练MM-DiT,最后用AMO做下肢RL跟踪

本文介绍了Ψ0模型,该模型结合大规模人类视频数据与真实机器人数据,训练出一种用于类人机器人灵巧运动的视觉-语言动作模型,能够有效提取运动先验,实现复杂的全身控制。

Ψ0——人形全身VLA:先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM,再后训练MM-DiT,最后用AMO做下肢RL跟踪

结构之法 算法之道
结构之法 算法之道 · 2026-03-21T11:15:57Z
HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互):为完成螺栓装配,主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整

本文探讨了一种双执行体强化学习框架,结合人类反馈优化视觉-语言-动作(VLA)模型。通过“对话与微调”机制,机器人在长时域操作中实现高效学习,成功率达到100%。该方法在多任务设置中展现出良好的样本效率和训练稳定性,适用于复杂的机器人操作任务。

HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互):为完成螺栓装配,主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整

结构之法 算法之道
结构之法 算法之道 · 2026-03-14T16:24:12Z
不仿真不VLA不遥操:它石智航重磅发布“能干活的通用具身大模型 ”AWE3.0

它石智航发布了全球首个具身大模型AWE3.0,具备毫米级精度和柔性物体感知能力,显著提升机器人在复杂环境中的作业能力,推动工业领域的具身智能应用。

不仿真不VLA不遥操:它石智航重磅发布“能干活的通用具身大模型 ”AWE3.0

量子位
量子位 · 2026-03-14T10:32:09Z
EgoScale——第一视角的2万小时人类标注数据扩展VLA的灵巧操作能力(提出human egocentric data下的缩放定律):先大规模人类预训练,再人机对齐,最后单条示范微调

EgoScale是一个基于大规模自中心人类数据的灵巧操作迁移框架。通过在20854小时的动作标注视频上训练视觉-语言-动作模型,发现人类数据规模与验证损失呈对数线性关系。该框架采用两阶段迁移方案,先进行大规模预训练,再进行少量对齐的中期训练,使机器人在极少监督下实现灵巧操作。研究表明,预训练策略在不同机器人平台上均能有效迁移,提升任务成功率。

EgoScale——第一视角的2万小时人类标注数据扩展VLA的灵巧操作能力(提出human egocentric data下的缩放定律):先大规模人类预训练,再人机对齐,最后单条示范微调

结构之法 算法之道
结构之法 算法之道 · 2026-03-02T10:39:29Z
DM0——面向物理AI的VLA:先VLM上混入物理数据做预训练,之后保持知识隔离的同时训练流匹配动作专家,最后做微调

本文介绍了DM0模型,这是一种面向体感智能的视觉-语言-动作(VLA)框架,旨在统一操作与导航。DM0通过多源三阶段训练流程,结合视觉、驾驶和体感数据,克服了传统模型的局限性,并在RoboChallenge基准测试中表现优异,展示了其在物理AI领域的潜力。

DM0——面向物理AI的VLA:先VLM上混入物理数据做预训练,之后保持知识隔离的同时训练流匹配动作专家,最后做微调

结构之法 算法之道
结构之法 算法之道 · 2026-02-24T16:09:17Z
X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

本文介绍了一种新型机器人学习模型X-VLA,采用软提示技术以提升跨具身机器人学习的适应性和泛化能力。通过引入可学习的嵌入,X-VLA有效解决了不同硬件和任务环境下的异质性问题,增强了模型在多样化数据集上的表现。该模型在多个基准测试中表现优异,展现出在灵巧操作和适应新领域方面的强大能力。

X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

结构之法 算法之道
结构之法 算法之道 · 2026-02-21T05:00:30Z
ICLR 2026|新版「图灵测试」:当VLA走进生物实验室

抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更详细的文章内容。

ICLR 2026|新版「图灵测试」:当VLA走进生物实验室

机器之心
机器之心 · 2026-02-20T14:45:41Z
论文汇总丨从「理解世界」到「进入世界」,NVIDIA/字节跳动/清华等团队引领的世界模型与VLA技术突破

具身智能(Embodied AI)使智能体能够在物理和数字世界中学习与决策,关键技术为世界模型(World Model)。近期研究包括基于视频训练的机器人模型、开源世界模拟器和合成环境生成器,推动智能体在可生成环境中的进化。推荐的六篇论文展示了智能体在复杂任务中的应用与优化。

论文汇总丨从「理解世界」到「进入世界」,NVIDIA/字节跳动/清华等团队引领的世界模型与VLA技术突破

HyperAI超神经
HyperAI超神经 · 2026-02-19T00:02:16Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码