小红花·文摘

$TrajBooster——通过“轨迹中心学习”提升人形全身操作能力的VLA：把智元轮式数据迁移到宇树G1上，先二次预训练后微调(免去动捕)$

TrajBooster——通过“轨迹中心学习”提升人形全身操作能力的VLA：把智元轮式数据迁移到宇树G1上，先二次预训练后微调(免去动捕)

结构之法算法之道 ·

Weave Robotic的Isaacs机器人已在洗衣房工作，负责衣物折叠和收纳。它利用视觉-语言-动作模型精准识别衣物，具备自主折叠能力，并计划扩展更多家务功能。创始团队由前苹果高管组成，致力于开发通用家用机器人。

机器人入职洗衣房，开始打工挣钱！苹果前AI高管打造

量子位 ·

本文介绍了physical intelligence公司推出的实时动作分块技术，旨在提升视觉-语言-动作模型（VLA）的实时控制能力。该技术通过异步机制和修复方法，解决了模型推理延迟和动作不连贯的问题，使机器人能够更精确地执行复杂任务。

实时动作分块RTC——为解决高延迟，让π0.5也可以点燃火柴、插入网线：执行当前动作分块时生成下一个分块，且已执行的冻结未执行的则补全

结构之法算法之道 ·

本文探讨了通过知识隔离和联合训练提升视觉-语言-动作模型（VLA）性能的方法。研究表明，传统训练方法导致知识损失和推理速度慢。作者提出的知识隔离技术有效保护预训练模型知识，同时使模型适应机器人控制任务，从而加快训练和推理速度。

π0.5的KI改进版——知识隔离：让VLM在不受动作专家负反馈的同时，输出离散动作token，并根据反馈做微调(而非冻结VLM)

结构之法算法之道 ·

Hugging Face 发布 SmolVLA：经济高效的机器人紧凑型 VLA 模型

实时互动网 ·

本研究提出RT-cache，一种新颖的机器人轨迹记忆管道，旨在降低现代视觉-语言-动作模型的推理成本。通过存储成功轨迹并检索相关运动片段，RT-cache显著提高了任务完成速度和成功率。

RT-cache: An Efficient Robot Trajectory Retrieval System

BriefGPT - AI 论文速递 ·

RSS 2025｜ConRFT: 真实环境下基于强化学习的VLA模型微调方法

机器之心 ·

本文讨论了3D VLA及其相关模型，重点介绍了PointVLA的背景和重要性。PointVLA将点云信息融入视觉-语言-动作模型中，提升了机器人在三维空间的感知与操作能力，克服了现有模型对二维输入的依赖。

3D版的VLA：从3D VLA、SpatialVLA到PointVLA——3D点云版的DexVLA，在动作专家中加入3D数据

结构之法算法之道 ·

本研究提出了一种优化的微调方法（OFT），针对视觉-语言-动作模型在新机器人环境中的微调问题，显著提升了模型的推理效率和成功率。OpenVLA-OFT在LIBERO基准测试中的成功率达到97.1%，优于其他同类模型。

微调视觉-语言-动作模型：优化速度和成功率

BriefGPT - AI 论文速递 ·

Sereact 融资 2500 万欧元，开发类似 ChatGPT 的 AI 机器人解决方案，实现仓库流程自动化

实时互动网 ·

全新模型RoboVLMs解锁VLA无限可能，真实机器人实验交出满分答卷

机器之心 ·

OpenVLA是一个拥有7B参数的开源视觉-语言-动作模型，利用970k真实机器人演示数据集训练。基于Llama 2和DINOv2，OpenVLA在29个任务中表现出色，成功率比RT-2-X高16.5%。在新环境中微调效果优于传统模仿学习方法20.4%，并能在消费级GPU上高效微调，提供模型检查点和代码库支持。

Flex：基于基础模型的文本指令视觉导航的端到端方法

BriefGPT - AI 论文速递 ·

本研究提出了一种无监督的潜在动作预训练方法（LAPA），无需人工标签，通过无标签视频学习离散动作，并在小规模机器人数据上微调，实验结果优于现有技术，展示了利用网络数据训练机器人模型的潜力。

来自视频的潜在动作预训练

BriefGPT - AI 论文速递 ·

OpenVLA是一个拥有7B参数的开源视觉-语言-动作模型，利用970k真实机器人演示数据集训练。基于Llama 2和DINOv2特征，OpenVLA在29个任务中表现优异，成功率比RT-2-X等闭源模型高16.5%。在新环境中微调效果显著，优于传统模仿学习方法20.4%。它可在消费级GPU上微调，并支持量化服务。模型检查点和代码库已发布，推动VLA的规模化训练。

LADEV：面向机器人操作的视觉语言行动模型的语言驱动测试与评估平台

BriefGPT - AI 论文速递 ·

TrajBooster——通过“轨迹中心学习”提升人形全身操作能力的VLA：把智元轮式数据迁移到宇树G1上，先二次预训练后微调(免去动捕)

机器人入职洗衣房，开始打工挣钱！苹果前AI高管打造

实时动作分块RTC——为解决高延迟，让π0.5也可以点燃火柴、插入网线：执行当前动作分块时生成下一个分块，且已执行的冻结 未执行的则补全

π0.5的KI改进版——知识隔离：让VLM在不受动作专家负反馈的同时，输出离散动作token，并根据反馈做微调(而非冻结VLM)

Hugging Face 发布 SmolVLA：经济高效的机器人紧凑型 VLA 模型

RT-cache: An Efficient Robot Trajectory Retrieval System

RSS 2025｜ConRFT: 真实环境下基于强化学习的VLA模型微调方法

3D版的VLA：从3D VLA、SpatialVLA到PointVLA——3D点云版的DexVLA，在动作专家中加入3D数据

微调视觉-语言-动作模型：优化速度和成功率

Sereact 融资 2500 万欧元，开发类似 ChatGPT 的 AI 机器人解决方案，实现仓库流程自动化

全新模型RoboVLMs解锁VLA无限可能，真实机器人实验交出满分答卷

Flex：基于基础模型的文本指令视觉导航的端到端方法

来自视频的潜在动作预训练

LADEV：面向机器人操作的视觉语言行动模型的语言驱动测试与评估平台

实时动作分块RTC——为解决高延迟，让π0.5也可以点燃火柴、插入网线：执行当前动作分块时生成下一个分块，且已执行的冻结未执行的则补全