星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列,通过共享权重实现推理与动作的耦合,提升机器人控制效率。该模型采用可学习的动作分词器和视觉记忆模块,优化动作生成过程,减少离散化负担,能够在零样本条件下分解任务,直接生成动作,增强对复杂场景的适应能力。
蚂蚁灵波科技首席科学家沈宇军在2026中国AIGC产业峰会上指出,AI 2.0将从数字世界转向物理世界,强调数据的重要性。他认为机器人行业面临数据短缺,未来需结合VLA和世界模型,推动具身智能的发展。灵波致力于成为机器人时代的“安卓系统”,通过标准化数据和智能化操作提升机器人应用。预计到2028年,具身智能将快速发展。
本文探讨了基于消费级GPU的实时视觉-语言模型(VLA)机器人控制技术。通过优化推理流程,推理延迟降低至27.3毫秒,抓取成功率达到100%。研究表明,VLA在机器人控制中可有效满足实时操作需求。
英伟达的Jim Fan宣布VLA(视觉-语言-动作)架构已过时,推出新范式WAM(世界动作模型),代表作DreamZero。WAM通过人类第一人称视频训练,提升机器人自主设计能力,预计2040年前实现机器人自我制造。新模型强调视觉和动作的重要性,告别遥操作数据,采用外骨骼装置采集数据。
在红杉AI Ascent 2026大会上,Jim Fan宣布VLA和遥操作已不再适用,未来将依赖世界动作模型(WAM)和人类传感器数据。新范式通过模拟物理世界状态和动作微调,结合强化学习,推动机器人技术进步。EgoScale和Dream Zero等新策略将提升机器人在各种任务中的灵活性和自主性,预示着机器人行业的重大变革。
本文讨论了在真实世界中部署通用机器人策略的挑战,提出了一种名为“部署中学习”(LWD)的框架,通过车队规模的离线到在线强化学习(RL)实现策略的持续改进。该方法结合离线数据和在线交互,利用多样化的部署经验,优化策略以适应新任务和环境。作者提出的分布式隐式价值学习(DIVL)和带有伴随匹配的Q学习(QAM)技术,旨在提高策略的稳定性和泛化能力,实现高效的后训练。
阮翀,元戎首席科学家,分享了如何利用40B基座模型提升自动驾驶研发效率。他强调数据表征和质量评估的重要性,指出基座模型加速了模型迭代,缩短了开发时间。同时,他讨论了物理AI的闭环概念,认为这是AI进入现实世界的关键,并表示选择转向物理AI是因为其更具挑战性和使命感。
高德推出的ABot-World模型是全球首款具身智能机器人操作系统,采用双引擎架构,突破了物理一致性、动作可控性和零样本泛化能力。该模型通过物理优先原则生成高保真场景,支持精确的动作条件化控制,提升了机器人在真实环境中的可靠性。ABot-World在多个评测中表现优异,展现了其在工业级应用中的潜力。
量子位发布的模型π0.7在机器人领域展示了组合泛化能力,能够根据新任务组合已有技能,无需专项训练,表现优于经过微调的专家模型。研究表明,该模型通过多样化的提示和质量标签,有效利用各种数据,提升学习效果,标志着具身智能的新发展,推动机器人技术进步。
PI公司提出了一种多尺度具身记忆(MEM)架构,结合短期视觉记忆和长期语言记忆,以提升机器人在复杂任务中的表现。该系统通过视频编码器处理短期记忆,并利用语言机制跟踪长期事件,使机器人能够有效执行长达15分钟的任务,如厨房整理,同时解决了遮挡问题,增强了在动态环境中的适应能力。
本文讨论了一种轻量级的在线强化学习方法,用于微调视觉-语言-动作模型。研究者通过引入“RL token”提高样本效率,使得模型能够快速适应真实世界任务。该方法结合冻结的VLA和小型actor-critic网络,优化关键任务阶段的表现,旨在实现高效的在线微调,同时保持泛化能力。
Momenta推出R7大模型,利用世界模型增强AI对物理世界的理解。CEO曹旭东表示,传统模仿学习无法超越人类,转向强化学习是关键。Momenta强调算法架构和数据的重要性,传感器排在第三位。
本文介绍了Ψ0模型,该模型结合大规模人类视频数据与真实机器人数据,训练出一种用于类人机器人灵巧运动的视觉-语言动作模型,能够有效提取运动先验,实现复杂的全身控制。
本文探讨了一种双执行体强化学习框架,结合人类反馈优化视觉-语言-动作(VLA)模型。通过“对话与微调”机制,机器人在长时域操作中实现高效学习,成功率达到100%。该方法在多任务设置中展现出良好的样本效率和训练稳定性,适用于复杂的机器人操作任务。
它石智航发布了全球首个具身大模型AWE3.0,具备毫米级精度和柔性物体感知能力,显著提升机器人在复杂环境中的作业能力,推动工业领域的具身智能应用。
EgoScale是一个基于大规模自中心人类数据的灵巧操作迁移框架。通过在20854小时的动作标注视频上训练视觉-语言-动作模型,发现人类数据规模与验证损失呈对数线性关系。该框架采用两阶段迁移方案,先进行大规模预训练,再进行少量对齐的中期训练,使机器人在极少监督下实现灵巧操作。研究表明,预训练策略在不同机器人平台上均能有效迁移,提升任务成功率。
本文介绍了DM0模型,这是一种面向体感智能的视觉-语言-动作(VLA)框架,旨在统一操作与导航。DM0通过多源三阶段训练流程,结合视觉、驾驶和体感数据,克服了传统模型的局限性,并在RoboChallenge基准测试中表现优异,展示了其在物理AI领域的潜力。
本文介绍了一种新型机器人学习模型X-VLA,采用软提示技术以提升跨具身机器人学习的适应性和泛化能力。通过引入可学习的嵌入,X-VLA有效解决了不同硬件和任务环境下的异质性问题,增强了模型在多样化数据集上的表现。该模型在多个基准测试中表现优异,展现出在灵巧操作和适应新领域方面的强大能力。
抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更详细的文章内容。
具身智能(Embodied AI)使智能体能够在物理和数字世界中学习与决策,关键技术为世界模型(World Model)。近期研究包括基于视频训练的机器人模型、开源世界模拟器和合成环境生成器,推动智能体在可生成环境中的进化。推荐的六篇论文展示了智能体在复杂任务中的应用与优化。
完成下面两步后,将自动完成登录并继续当前操作。