MV-CLIP:多视角 CLIP 用于零样本 3D 形状识别
原文中文,约200字,阅读约需1分钟。发表于: 。通过视角选择和分层提示的策略,本研究旨在改进预训练模型在零样本三维形状识别中的信心,实现无需额外训练的令人印象深刻的分类准确性。
本文介绍了CLIP2Scene框架,将二维预训练模型的知识转移到三维点云网络,通过语义和时空一致性正则化预训练三维网络,实现了三维场景理解任务。在nuScenes和ScanNet数据集上的实验结果表明,mIoU分别达到20.8%和25.08%。
通过视角选择和分层提示的策略,本研究旨在改进预训练模型在零样本三维形状识别中的信心,实现无需额外训练的令人印象深刻的分类准确性。
本文介绍了CLIP2Scene框架,将二维预训练模型的知识转移到三维点云网络,通过语义和时空一致性正则化预训练三维网络,实现了三维场景理解任务。在nuScenes和ScanNet数据集上的实验结果表明,mIoU分别达到20.8%和25.08%。