小红花·文摘

本文介绍了DiffCLIP，一种新的预训练框架，结合稳定扩散和ControlNet，减小视觉分支中的域间差异，并引入样式提示生成模块，用于少样本任务。实验结果显示DiffCLIP在ModelNet10、ModelNet40和ScanObjectNN数据集上具有强大的3D理解能力。在ScanObjectNN的OBJ_BG数据集上，DiffCLIP实现了43.2%的零样本分类精度，是最先进的技术水平；在ModelNet10上实现了80.6%的零样本分类精度，与最先进的技术水平相当。