通过双重去噪从 CLIP 学习稳健的 3D 表示
原文中文,约300字,阅读约需1分钟。发表于: 。本文探讨了一个关键但鲜为人知的问题:如何从预训练的视觉语言模型(如 CLIP)中学习到稳健且良好泛化的 3D 表示。我们提出了 Dual Denoising 框架,通过将基于去噪的代理任务与新颖的特征去噪网络相结合,从 CLIP 中学习鲁棒且良好泛化的 3D 表示。实验结果显示我们的模型能够在零样本设置下有效提高 3D 学习网络的表示学习性能和对抗鲁棒性。
本文研究了从预训练的视觉语言模型中学习稳健且良好泛化的3D表示。提出了Dual Denoising框架,通过代理任务和特征去噪网络相结合,从CLIP中学习鲁棒且良好泛化的3D表示。实验证明该模型能提高3D学习网络的表示学习性能和对抗鲁棒性。