本文介绍了DiffCLIP,一种新的预训练框架,结合稳定扩散和ControlNet,减小视觉分支中的域间差异,并引入样式提示生成模块,用于少样本任务。实验结果显示DiffCLIP在ModelNet10、ModelNet40和ScanObjectNN数据集上具有强大的3D理解能力。在ScanObjectNN的OBJ_BG数据集上,DiffCLIP实现了43.2%的零样本分类精度,是最先进的技术水平;在ModelNet10上实现了80.6%的零样本分类精度,与最先进的技术水平相当。
完成下面两步后,将自动完成登录并继续当前操作。