小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
TrajBooster——通过“轨迹中心学习”提升人形全身操作能力的VLA:把智元轮式数据迁移到宇树G1上,先二次预训练后微调(免去动捕)

本文介绍了TrajBooster框架,旨在提升双足人形机器人全身操作能力。通过提取末端执行器轨迹并进行重定向,TrajBooster解决了数据稀缺问题,增强了视觉-语言-动作模型的泛化能力。该方法结合真实与仿真数据,经过二次预训练和微调,使机器人能够在复杂环境中自主执行多样化任务,展现出强大的操作能力和适应性。

TrajBooster——通过“轨迹中心学习”提升人形全身操作能力的VLA:把智元轮式数据迁移到宇树G1上,先二次预训练后微调(免去动捕)

结构之法 算法之道
结构之法 算法之道 · 2025-10-20T11:11:35Z

Weave Robotic的Isaacs机器人已在洗衣房工作,负责衣物折叠和收纳。它利用视觉-语言-动作模型精准识别衣物,具备自主折叠能力,并计划扩展更多家务功能。创始团队由前苹果高管组成,致力于开发通用家用机器人。

机器人入职洗衣房,开始打工挣钱!苹果前AI高管打造

量子位
量子位 · 2025-09-14T10:13:40Z

本文介绍了physical intelligence公司推出的实时动作分块技术,旨在提升视觉-语言-动作模型(VLA)的实时控制能力。该技术通过异步机制和修复方法,解决了模型推理延迟和动作不连贯的问题,使机器人能够更精确地执行复杂任务。

实时动作分块RTC——为解决高延迟,让π0.5也可以点燃火柴、插入网线:执行当前动作分块时生成下一个分块,且已执行的冻结 未执行的则补全

结构之法 算法之道
结构之法 算法之道 · 2025-07-15T08:43:07Z

本文探讨了通过知识隔离和联合训练提升视觉-语言-动作模型(VLA)性能的方法。研究表明,传统训练方法导致知识损失和推理速度慢。作者提出的知识隔离技术有效保护预训练模型知识,同时使模型适应机器人控制任务,从而加快训练和推理速度。

π0.5的KI改进版——知识隔离:让VLM在不受动作专家负反馈的同时,输出离散动作token,并根据反馈做微调(而非冻结VLM)

结构之法 算法之道
结构之法 算法之道 · 2025-07-10T04:18:12Z
Hugging Face 发布 SmolVLA:经济高效的机器人紧凑型 VLA 模型

Hugging Face推出了SmolVLA,一个轻量级的视觉-语言-动作模型,旨在以低成本和高效能实现机器人控制。该模型基于社区数据训练,优化于单GPU或CPU环境,具备低延迟和高成功率,适用于多种机器人平台。SmolVLA的异步推理提高了控制效率,显著降低了计算需求,为未来的机器人学习研究奠定基础。

Hugging Face 发布 SmolVLA:经济高效的机器人紧凑型 VLA 模型

实时互动网
实时互动网 · 2025-06-04T02:43:33Z

本研究提出RT-cache,一种新颖的机器人轨迹记忆管道,旨在降低现代视觉-语言-动作模型的推理成本。通过存储成功轨迹并检索相关运动片段,RT-cache显著提高了任务完成速度和成功率。

RT-cache: An Efficient Robot Trajectory Retrieval System

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z
RSS 2025|ConRFT: 真实环境下基于强化学习的VLA模型微调方法

本文提出了一种名为ConRFT的强化微调方法,旨在提升视觉-语言-动作模型(VLA)在真实环境中的表现。该方法分为离线和在线两个阶段,通过一致性策略解决数据稀缺和不一致性问题。实验结果显示,ConRFT在多个操作任务中的成功率达到96.3%,显著优于传统方法,展示了强化学习在机器人应用中的潜力。

RSS 2025|ConRFT: 真实环境下基于强化学习的VLA模型微调方法

机器之心
机器之心 · 2025-04-18T04:05:56Z

本文讨论了3D VLA及其相关模型,重点介绍了PointVLA的背景和重要性。PointVLA将点云信息融入视觉-语言-动作模型中,提升了机器人在三维空间的感知与操作能力,克服了现有模型对二维输入的依赖。

3D版的VLA:从3D VLA、SpatialVLA到PointVLA——3D点云版的DexVLA,在动作专家中加入3D数据

结构之法 算法之道
结构之法 算法之道 · 2025-04-14T15:57:54Z

本研究提出了一种优化的微调方法(OFT),针对视觉-语言-动作模型在新机器人环境中的微调问题,显著提升了模型的推理效率和成功率。OpenVLA-OFT在LIBERO基准测试中的成功率达到97.1%,优于其他同类模型。

微调视觉-语言-动作模型:优化速度和成功率

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z
Sereact 融资 2500 万欧元,开发类似 ChatGPT 的 AI 机器人解决方案,实现仓库流程自动化

德国Sereact获得2500万欧元A轮融资,投资者包括Creandum和Point Nine。该公司开发的AI机器人解决方案可自动化仓库拣选和包装,计划加速视觉语言动作模型(VLAM)的部署,扩展研发和美国市场,以应对劳动力短缺并提升生产力。

Sereact 融资 2500 万欧元,开发类似 ChatGPT 的 AI 机器人解决方案,实现仓库流程自动化

实时互动网
实时互动网 · 2025-01-21T03:20:41Z
全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷

AIxiv专栏促进了学术交流,报道了2000多篇内容。新模型RoboVLMs在视觉语言动作模型(VLA)中表现优异,能够在多种任务中稳定发挥。通过合理设计和选择基座模型,RoboVLMs在仿真和真实环境中均取得了出色成绩,展现了未来机器人的潜力。

全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷

机器之心
机器之心 · 2025-01-02T06:18:52Z

OpenVLA是一个拥有7B参数的开源视觉-语言-动作模型,利用970k真实机器人演示数据集训练。基于Llama 2和DINOv2,OpenVLA在29个任务中表现出色,成功率比RT-2-X高16.5%。在新环境中微调效果优于传统模仿学习方法20.4%,并能在消费级GPU上高效微调,提供模型检查点和代码库支持。

Flex:基于基础模型的文本指令视觉导航的端到端方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本研究提出了一种无监督的潜在动作预训练方法(LAPA),无需人工标签,通过无标签视频学习离散动作,并在小规模机器人数据上微调,实验结果优于现有技术,展示了利用网络数据训练机器人模型的潜力。

来自视频的潜在动作预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

OpenVLA是一个拥有7B参数的开源视觉-语言-动作模型,利用970k真实机器人演示数据集训练。基于Llama 2和DINOv2特征,OpenVLA在29个任务中表现优异,成功率比RT-2-X等闭源模型高16.5%。在新环境中微调效果显著,优于传统模仿学习方法20.4%。它可在消费级GPU上微调,并支持量化服务。模型检查点和代码库已发布,推动VLA的规模化训练。

LADEV:面向机器人操作的视觉语言行动模型的语言驱动测试与评估平台

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码