X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

📝

内容提要

摘要:本文提出X-VLA模型,通过SoftPrompt机制解决跨具身机器人学习中的异质性问题。该模型为不同数据源分配可学习嵌入,有效整合硬件配置差异,提升泛化能力。训练分两阶段:先在异构数据上预训练通用策略,再通过微调适配新具身形态。实验表明,X-VLA能在仅增加少量参数的情况下,显著提升模型对多样化机器人系统的适应能力,为具身智能的跨平台部署提供新思路。(149字)

🏷️

标签

➡️

继续阅读