本文介绍了TrajBooster框架,旨在提升双足人形机器人全身操作能力。通过提取末端执行器轨迹并进行重定向,TrajBooster解决了数据稀缺问题,增强了视觉-语言-动作模型的泛化能力。该方法结合真实与仿真数据,经过二次预训练和微调,使机器人能够在复杂环境中自主执行多样化任务,展现出强大的操作能力和适应性。
Weave Robotic的Isaacs机器人已在洗衣房工作,负责衣物折叠和收纳。它利用视觉-语言-动作模型精准识别衣物,具备自主折叠能力,并计划扩展更多家务功能。创始团队由前苹果高管组成,致力于开发通用家用机器人。
本文介绍了physical intelligence公司推出的实时动作分块技术,旨在提升视觉-语言-动作模型(VLA)的实时控制能力。该技术通过异步机制和修复方法,解决了模型推理延迟和动作不连贯的问题,使机器人能够更精确地执行复杂任务。
本文探讨了通过知识隔离和联合训练提升视觉-语言-动作模型(VLA)性能的方法。研究表明,传统训练方法导致知识损失和推理速度慢。作者提出的知识隔离技术有效保护预训练模型知识,同时使模型适应机器人控制任务,从而加快训练和推理速度。
Hugging Face推出了SmolVLA,一个轻量级的视觉-语言-动作模型,旨在以低成本和高效能实现机器人控制。该模型基于社区数据训练,优化于单GPU或CPU环境,具备低延迟和高成功率,适用于多种机器人平台。SmolVLA的异步推理提高了控制效率,显著降低了计算需求,为未来的机器人学习研究奠定基础。
本研究提出RT-cache,一种新颖的机器人轨迹记忆管道,旨在降低现代视觉-语言-动作模型的推理成本。通过存储成功轨迹并检索相关运动片段,RT-cache显著提高了任务完成速度和成功率。
本文提出了一种名为ConRFT的强化微调方法,旨在提升视觉-语言-动作模型(VLA)在真实环境中的表现。该方法分为离线和在线两个阶段,通过一致性策略解决数据稀缺和不一致性问题。实验结果显示,ConRFT在多个操作任务中的成功率达到96.3%,显著优于传统方法,展示了强化学习在机器人应用中的潜力。
本文讨论了3D VLA及其相关模型,重点介绍了PointVLA的背景和重要性。PointVLA将点云信息融入视觉-语言-动作模型中,提升了机器人在三维空间的感知与操作能力,克服了现有模型对二维输入的依赖。
本研究提出了一种优化的微调方法(OFT),针对视觉-语言-动作模型在新机器人环境中的微调问题,显著提升了模型的推理效率和成功率。OpenVLA-OFT在LIBERO基准测试中的成功率达到97.1%,优于其他同类模型。
德国Sereact获得2500万欧元A轮融资,投资者包括Creandum和Point Nine。该公司开发的AI机器人解决方案可自动化仓库拣选和包装,计划加速视觉语言动作模型(VLAM)的部署,扩展研发和美国市场,以应对劳动力短缺并提升生产力。
AIxiv专栏促进了学术交流,报道了2000多篇内容。新模型RoboVLMs在视觉语言动作模型(VLA)中表现优异,能够在多种任务中稳定发挥。通过合理设计和选择基座模型,RoboVLMs在仿真和真实环境中均取得了出色成绩,展现了未来机器人的潜力。
OpenVLA是一个拥有7B参数的开源视觉-语言-动作模型,利用970k真实机器人演示数据集训练。基于Llama 2和DINOv2,OpenVLA在29个任务中表现出色,成功率比RT-2-X高16.5%。在新环境中微调效果优于传统模仿学习方法20.4%,并能在消费级GPU上高效微调,提供模型检查点和代码库支持。
本研究提出了一种无监督的潜在动作预训练方法(LAPA),无需人工标签,通过无标签视频学习离散动作,并在小规模机器人数据上微调,实验结果优于现有技术,展示了利用网络数据训练机器人模型的潜力。
OpenVLA是一个拥有7B参数的开源视觉-语言-动作模型,利用970k真实机器人演示数据集训练。基于Llama 2和DINOv2特征,OpenVLA在29个任务中表现优异,成功率比RT-2-X等闭源模型高16.5%。在新环境中微调效果显著,优于传统模仿学习方法20.4%。它可在消费级GPU上微调,并支持量化服务。模型检查点和代码库已发布,推动VLA的规模化训练。
完成下面两步后,将自动完成登录并继续当前操作。