VG4D:视觉语言模型进入 4D 视频识别
原文中文,约200字,阅读约需1分钟。发表于: 。通过 Vision-Language Models Goes 4D (VG4D) 框架,我们将 VLM 知识从视觉 - 文本预训练模型转移到 4D 点云网络中,实现了增强的识别性能。我们还提出了改进的 PSTNet 版本 im-PSTNet 来增强 4D 编码器,并通过实验证明了我们方法在动作识别方面达到了最先进的性能。
提出了一种基于3D感知、推理和行动的3D-VLA模型,通过引入交互令牌与具体环境进行交互,训练一系列融入大规模3D语言模型的生成扩散模型以预测目标图像和点云。在大规模数据集上的实验中展示了3D-VLA在推理、多模态生成和规划能力上的显著改进,展示了其在真实世界应用中的潜力。