来自视频的潜在动作预训练
原文中文,约600字,阅读约需2分钟。发表于: 。本研究解决了现有视觉-语言-动作模型依赖于人工标签的问题,提出了一种从无标签互联网视频中学习的潜在动作预训练方法(LAPA)。该方法通过训练动作量化模型学习离散潜在动作,并在小规模机器人操作数据上微调模型,实验证明其在实际操作任务中显著优于现有技术,展现了利用网络规模数据进行机器人基础模型训练的潜力。
本研究提出了一种无监督的潜在动作预训练方法(LAPA),无需人工标签,通过无标签视频学习离散动作,并在小规模机器人数据上微调,实验结果优于现有技术,展示了利用网络数据训练机器人模型的潜力。