小红花·文摘

本文提出了一种基于核范数优化的运动捕捉方法，能够在无需特定相机或训练数据的情况下重建运动场景。研究表明，利用文本转换器进行视觉模仿学习在低数据情况下的表现优于传统方法。此外，提出的多视角变形器和视频识别框架在训练和推理速度上显著提升，适用于智能机器人和视频行为理解任务。