本文提出了一种以人为中心的多模态对比学习框架,旨在通过样本对比学习实现多视角数据的特征表示,以支持3D姿态估计任务的合成数据生成。研究表明,使用合成图像训练的CNN在3D姿态估计上表现优于使用真实图像训练。此外,提出的StylePoseGAN能够合成具有姿势控制的人类图像,适用于虚拟换装等应用。
本文介绍了CleanCLIP,一种新方法,旨在减弱后门攻击对多模态表征学习模型训练的影响。研究还提出了CLIP-benchmark,以评估CLIP性能的关键因素,并探讨多模态对比学习机制。MetaCLIP在多个基准测试中表现优异,Dp-CLIP关注数据隐私问题。SoftCLIP和EfficientCLIP通过不同策略提升跨模态检索效果,CLIPPINGS框架在图像-文本对齐方面表现突出。
本文介绍了oolns攻击,使用双嵌入引导框架实现抵抗后门检测和模型优化防御。该攻击对后门防御具有优势,引发了对多模态对比学习的潜在威胁的关注。
完成下面两步后,将自动完成登录并继续当前操作。