小红花·文摘

RLT——VLA引导的在线RL：极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调，最终从粗到细搞定拧螺丝和充电器插入

结构之法算法之道 ·

$HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互)：为完成螺栓装配，主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整$

HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互)：为完成螺栓装配，主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整

结构之法算法之道 ·

DM0——面向物理AI的VLA：先VLM上混入物理数据做预训练，之后保持知识隔离的同时训练流匹配动作专家，最后做微调

结构之法算法之道 ·

$RISE——组合式世界模型驱动的RL框架：基于视频扩散模型预测的未来视觉状态，和VLA估计的进度价值评估，以先离线预热后在线改进$

RISE——组合式世界模型驱动的RL框架：基于视频扩散模型预测的未来视觉状态，和VLA估计的进度价值评估，以先离线预热后在线改进

结构之法算法之道 ·

$GigaBrain-0.5M*(可对标π∗0.6)——从基于世界模型的RL中学习的VLA：通过“预测的价值和未来状态、经验数据、人工纠正”优化动作策略$

GigaBrain-0.5M*(可对标π∗0.6)——从基于世界模型的RL中学习的VLA：通过“预测的价值和未来状态、经验数据、人工纠正”优化动作策略

结构之法算法之道 ·

$GigaBrain-0——通过世界模型GigaWorld增强VLA的泛化能力：基于RGBD输入建模，及通过具身CoT增强推理能力$

GigaBrain-0——通过世界模型GigaWorld增强VLA的泛化能力：基于RGBD输入建模，及通过具身CoT增强推理能力

结构之法算法之道 ·

$PLD——自我改进的VLA：先通过离策略RL学习一个轻量级的残差动作策略，然后让该残差策略收集专家数据，最后蒸馏到VLA中$

PLD——自我改进的VLA：先通过离策略RL学习一个轻量级的残差动作策略，然后让该残差策略收集专家数据，最后蒸馏到VLA中

结构之法算法之道 ·

$GR-RL——首个让机器人系鞋带的VLA：先离线RL训练一个“分布式价值评估器”以做任务进度预测，后数据增强，最后在线RL$

GR-RL——首个让机器人系鞋带的VLA：先离线RL训练一个“分布式价值评估器”以做任务进度预测，后数据增强，最后在线RL

结构之法算法之道 ·

$WALL-OSS——点燃QwenVL 2.5在具身空间中的潜力：VL FFN可预测子任务及离散动作token，Action FNN则预测连续动作$

WALL-OSS——点燃QwenVL 2.5在具身空间中的潜力：VL FFN可预测子任务及离散动作token，Action FNN则预测连续动作

结构之法算法之道 ·

TA-VLA——将关节力矩反馈融入VLA中：无需外部力传感器，即可完成汽车充电器插入(且可多次自主尝试)

结构之法算法之道 ·

本文介绍了一种结合强化学习与视觉-语言-动作模型的微调方法ConRFT，旨在提升机器人任务的样本效率和安全性。ConRFT通过离线和在线两个阶段，利用人类示范数据和一致性策略，解决了传统方法在真实环境中的挑战，增强了智能机械臂的精准性和泛化能力。

ConRFT——Consistency Policy下RL微调VLA的方法：离线通过演示数据微调(结合Q损失和BC损失)，后在线RL微调，且引入人工干预

结构之法算法之道 ·

本文介绍了G0双系统模型，结合视觉-语言-动作（VLA）与多模态规划，提出Galaxea开放世界数据集，旨在提升机器人在复杂任务中的自主感知与执行能力。该数据集包含500小时高保真数据，涵盖150个任务，确保数据一致性与可靠性。G0模型通过三阶段训练策略优化机器人性能，推动具身模型的发展。

Galaxea G0——类似Hi Robot的「VLM高层推理 + VLA低层执行」：子任务标注数据训练前者VLM，且三阶段训练后者VLA

结构之法算法之道 ·

谷歌DeepMind宣布推出机器人基础模型Gemini Robotics On-Device

InfoQ ·

自6月以来，团队在机器人领域快速推进，开发了SmolVLA模型，以提升机器人在新环境中的适应能力。该模型结合视觉、语言和动作（VLA），优化了训练和推理效率，并利用社区数据进行预训练，展现出强大的泛化能力和性能。

SmolVLA——Hugging Face等机构推出的轻量且高效的VLA：将动作执行、观测处理、动作预测解耦

结构之法算法之道 ·

HybridVLA是一种新型视觉-语言-动作模型，结合自回归和扩散策略，旨在提升机器人在动态环境中的操作能力。通过协同训练，该模型有效整合两种生成方法的优势，提高了动作预测的准确性和鲁棒性，并在多样化数据集上展现出优越的性能。

HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力：训练时既扩散也回归，但推理时则扩散

结构之法算法之道 ·

本研究提出了一种新颖的视觉-语言-动作架构OPAL，解决了机器人控制中的因果理解缺失问题。实验结果表明，OPAL在复杂操作任务上优于传统方法，显著提升了零样本性能，并减少了42%的推理计算需求。

OPAL: Causal Understanding Encoding of Physical Systems for Robot Learning

BriefGPT - AI 论文速递 ·

谷歌DeepMind今天发布了一系列新的Gemini模型，专为机器人设计。Gemini Robotics是一个视觉-语言-动作模型，能够将自然语言和图像转化为机器人动作。Gemini Robotics-ER模型增强了识别3D空间中物体及其部件的能力，使机器人能够完成折纸、打包午餐等任务。

深入了解我们新的Gemini机器人模型

The Keyword ·

本研究提出了一种视觉-语言-动作（VLA）方法，以解决无人机在复杂赛车环境中的自主导航问题。研究表明，RaceVLA在高速场景中表现优异，对提升赛车导航具有重要意义。

RaceVLA: Vision-Language-Action Based Human-Like Behavior Navigation for Racing Drones

BriefGPT - AI 论文速递 ·

CogACT是一种结合视觉、语言和动作的模型，通过VLM和DiT模块提升机器人在复杂任务中的表现。它提取认知信息并利用扩散模型预测动作，实现高精度和多模态的动作生成，显著提高任务成功率。

一文速览CogACT及其源码剖析：把OpenVLA的离散化动作预测换成DiT，逼近π0(含DiT的实现)

结构之法算法之道 ·

把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源

机器之心 ·