小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
π0.7发布,VLA押出了机器人的GPT-3时刻

量子位发布的模型π0.7在机器人领域展示了组合泛化能力,能够根据新任务组合已有技能,无需专项训练,表现优于经过微调的专家模型。研究表明,该模型通过多样化的提示和质量标签,有效利用各种数据,提升学习效果,标志着具身智能的新发展,推动机器人技术进步。

π0.7发布,VLA押出了机器人的GPT-3时刻

量子位
量子位 · 2026-04-17T06:57:35Z
MEM——解决VLA长时记忆问题的框架:短时靠高效视频编码抓细节,长线凭文本记忆系统记进度

PI公司提出了一种多尺度具身记忆(MEM)架构,结合短期视觉记忆和长期语言记忆,以提升机器人在复杂任务中的表现。该系统通过视频编码器处理短期记忆,并利用语言机制跟踪长期事件,使机器人能够有效执行长达15分钟的任务,如厨房整理,同时解决了遮挡问题,增强了在动态环境中的适应能力。

MEM——解决VLA长时记忆问题的框架:短时靠高效视频编码抓细节,长线凭文本记忆系统记进度

结构之法 算法之道
结构之法 算法之道 · 2026-04-11T16:22:06Z
RLT——VLA引导的在线RL:极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调,最终从粗到细搞定拧螺丝和充电器插入

本文讨论了一种轻量级的在线强化学习方法,用于微调视觉-语言-动作模型。研究者通过引入“RL token”提高样本效率,使得模型能够快速适应真实世界任务。该方法结合冻结的VLA和小型actor-critic网络,优化关键任务阶段的表现,旨在实现高效的在线微调,同时保持泛化能力。

RLT——VLA引导的在线RL:极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调,最终从粗到细搞定拧螺丝和充电器插入

结构之法 算法之道
结构之法 算法之道 · 2026-03-26T03:44:34Z
Momenta不选VLA选世界模型,大众首发!曹旭东:传感器重要性最后

Momenta推出R7大模型,利用世界模型增强AI对物理世界的理解。CEO曹旭东表示,传统模仿学习无法超越人类,转向强化学习是关键。Momenta强调算法架构和数据的重要性,传感器排在第三位。

Momenta不选VLA选世界模型,大众首发!曹旭东:传感器重要性最后

量子位
量子位 · 2026-03-23T08:47:07Z
Ψ0——人形全身VLA:先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM,再后训练MM-DiT,最后用AMO做下肢RL跟踪

本文介绍了Ψ0模型,该模型结合大规模人类视频数据与真实机器人数据,训练出一种用于类人机器人灵巧运动的视觉-语言动作模型,能够有效提取运动先验,实现复杂的全身控制。

Ψ0——人形全身VLA:先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM,再后训练MM-DiT,最后用AMO做下肢RL跟踪

结构之法 算法之道
结构之法 算法之道 · 2026-03-21T11:15:57Z
HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互):为完成螺栓装配,主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整

本文探讨了一种双执行体强化学习框架,结合人类反馈优化视觉-语言-动作(VLA)模型。通过“对话与微调”机制,机器人在长时域操作中实现高效学习,成功率达到100%。该方法在多任务设置中展现出良好的样本效率和训练稳定性,适用于复杂的机器人操作任务。

HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互):为完成螺栓装配,主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整

结构之法 算法之道
结构之法 算法之道 · 2026-03-14T16:24:12Z
不仿真不VLA不遥操:它石智航重磅发布“能干活的通用具身大模型 ”AWE3.0

它石智航发布了全球首个具身大模型AWE3.0,具备毫米级精度和柔性物体感知能力,显著提升机器人在复杂环境中的作业能力,推动工业领域的具身智能应用。

不仿真不VLA不遥操:它石智航重磅发布“能干活的通用具身大模型 ”AWE3.0

量子位
量子位 · 2026-03-14T10:32:09Z
DM0——面向物理AI的VLA:先VLM上混入物理数据做预训练,之后保持知识隔离的同时训练流匹配动作专家,最后做微调

本文介绍了DM0模型,这是一种面向体感智能的视觉-语言-动作(VLA)框架,旨在统一操作与导航。DM0通过多源三阶段训练流程,结合视觉、驾驶和体感数据,克服了传统模型的局限性,并在RoboChallenge基准测试中表现优异,展示了其在物理AI领域的潜力。

DM0——面向物理AI的VLA:先VLM上混入物理数据做预训练,之后保持知识隔离的同时训练流匹配动作专家,最后做微调

结构之法 算法之道
结构之法 算法之道 · 2026-02-24T16:09:17Z
X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

本文介绍了一种新型机器人学习模型X-VLA,采用软提示技术以提升跨具身机器人学习的适应性和泛化能力。通过引入可学习的嵌入,X-VLA有效解决了不同硬件和任务环境下的异质性问题,增强了模型在多样化数据集上的表现。该模型在多个基准测试中表现优异,展现出在灵巧操作和适应新领域方面的强大能力。

X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

结构之法 算法之道
结构之法 算法之道 · 2026-02-21T05:00:30Z
ICLR 2026|新版「图灵测试」:当VLA走进生物实验室

抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更详细的文章内容。

ICLR 2026|新版「图灵测试」:当VLA走进生物实验室

机器之心
机器之心 · 2026-02-20T14:45:41Z
论文汇总丨从「理解世界」到「进入世界」,NVIDIA/字节跳动/清华等团队引领的世界模型与VLA技术突破

具身智能(Embodied AI)使智能体能够在物理和数字世界中学习与决策,关键技术为世界模型(World Model)。近期研究包括基于视频训练的机器人模型、开源世界模拟器和合成环境生成器,推动智能体在可生成环境中的进化。推荐的六篇论文展示了智能体在复杂任务中的应用与优化。

论文汇总丨从「理解世界」到「进入世界」,NVIDIA/字节跳动/清华等团队引领的世界模型与VLA技术突破

HyperAI超神经
HyperAI超神经 · 2026-02-19T00:02:16Z
RISE——组合式世界模型驱动的RL框架:基于视频扩散模型预测的未来视觉状态,和VLA估计的进度价值评估,以先离线预热后在线改进

RISE是一个通过想象进行机器人强化学习的框架,旨在提升视觉-语言-动作模型在复杂任务中的鲁棒性。它结合动力学预测和价值估计,利用组合式世界模型生成高效学习信号,表现优于传统强化学习方法,能够有效应对动态适应性和精确性要求的任务。

RISE——组合式世界模型驱动的RL框架:基于视频扩散模型预测的未来视觉状态,和VLA估计的进度价值评估,以先离线预热后在线改进

结构之法 算法之道
结构之法 算法之道 · 2026-02-18T15:07:31Z
GigaBrain-0.5M*(可对标π∗0.6)——从基于世界模型的RL中学习的VLA:通过“预测的价值和未来状态、经验数据、人工纠正”优化动作策略

本文介绍了GigaBrain-0.5M*模型,该模型通过世界模型增强了视觉-语言-动作(VLA)系统的能力。GigaBrain-0.5M*在GigaBrain-0.5的基础上,采用了基于世界模型的强化学习方法RAMP,显著提升了机器人在复杂任务中的表现,尤其在长时程任务中的前瞻性规划能力。

GigaBrain-0.5M*(可对标π∗0.6)——从基于世界模型的RL中学习的VLA:通过“预测的价值和未来状态、经验数据、人工纠正”优化动作策略

结构之法 算法之道
结构之法 算法之道 · 2026-02-16T04:11:48Z

极佳视界推出的GigaBrain-0.5M大模型成功率接近100%,能够完成叠衣服、冲咖啡等复杂任务。该模型基于世界模型进行强化学习,采用人机协作机制,显著提升任务成功率和决策策略的鲁棒性。通过海量训练数据,模型在长时程操作中表现优异,推动具身智能的发展。

捅破具身智能天花板!极佳视界新VLA大模型登场,复杂长时程任务近100%成功率

量子位
量子位 · 2026-02-15T05:52:39Z
GigaBrain-0——通过世界模型GigaWorld增强VLA的泛化能力:基于RGBD输入建模,及通过具身CoT增强推理能力

GigaBrain-0是一种新型视觉-语言-动作(VLA)模型,旨在通过整合视觉输入、自然语言指令和运动控制,提升机器人在多样环境中的操作能力。该模型利用生成的数据,降低对真实世界数据的依赖,提高泛化能力和数据效率。GigaBrain-0采用混合架构,增强空间感知能力,并通过生成中间推理步骤,模拟人类问题解决过程,实现更精确的操作和决策。

GigaBrain-0——通过世界模型GigaWorld增强VLA的泛化能力:基于RGBD输入建模,及通过具身CoT增强推理能力

结构之法 算法之道
结构之法 算法之道 · 2026-02-14T12:16:31Z

小米推出首代具身机器人VLA大模型,具备80ms推理延迟和30Hz控制频率,支持消费级显卡运行。通过三项技术创新,该模型提升了自主性,解决了机器人动作连续性和视觉理解能力的问题,展现出优异的仿真和真实环境表现,推动了具身智能的工业应用。

小米的首代机器人VLA大模型来了!丝滑赛德芙,推理延迟仅80ms丨全面开源

量子位
量子位 · 2026-02-12T12:51:00Z
DreamZero——同时统一预测未来视觉状态与动作的世界动作模型:解决当下VLA如果人类不示教则理论强但具体操作不强的弊病,且提升任务泛化、本体泛化

DreamZero是一种新型世界动作模型,通过联合预测视频和动作,提升机器人在新环境中的泛化能力。与传统模型相比,DreamZero能够高效学习多样化技能,支持零样本泛化,并实现实时控制。其核心在于利用预训练的视频扩散模型,结合自回归架构和优化策略,提高推理速度和准确性。

DreamZero——同时统一预测未来视觉状态与动作的世界动作模型:解决当下VLA如果人类不示教则理论强但具体操作不强的弊病,且提升任务泛化、本体泛化

结构之法 算法之道
结构之法 算法之道 · 2026-02-08T09:16:32Z

城区NOA市场竞争加剧,华为HI、元戎启行和Momenta三家公司占据九成市场份额。预计到2025年,城区NOA渗透率将突破10%,并向10万级车型扩展。车企需加速生产,选择自研或外购方案,未来销量预计达到500万辆。AI技术推动行业变革,VLA成为关键竞争力。

城区NOA新格局:头部三强争霸,深圳VLA黑马拿下四成市场

量子位
量子位 · 2026-02-04T04:30:18Z

蚂蚁灵波科技开源了具身大模型LingBot-VLA,提升了机器人在真实场景中的操作能力。该模型实现了跨本体和跨任务的泛化,降低了训练成本,并在多项评测中刷新成功率纪录。LingBot-VLA结合高精度空间感知模型,增强了深度信息处理能力,助力开发者快速适应不同场景,推动具身智能的发展。

蚂蚁灵波开源具身大模型LingBot-VLA,让机器人“看的更清楚 做的更明白”

量子位
量子位 · 2026-01-28T02:21:46Z
刚刚,智元提出SOP,让VLA模型在真实世界实现可扩展的在线进化

抱歉,提供的文本内容过于简短,无法进行有效总结。请提供更详细的文章内容。

刚刚,智元提出SOP,让VLA模型在真实世界实现可扩展的在线进化

机器之心
机器之心 · 2026-01-06T10:11:21Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码