小红花·文摘

本文提出了一种以人为中心的多模态对比学习框架，旨在通过样本对比学习实现多视角数据的特征表示，以支持3D姿态估计任务的合成数据生成。研究表明，使用合成图像训练的CNN在3D姿态估计上表现优于使用真实图像训练。此外，提出的StylePoseGAN能够合成具有姿势控制的人类图像，适用于虚拟换装等应用。

多正同反学习与姿态一致生成图像

BriefGPT - AI 论文速递 ·

本文介绍了CleanCLIP，一种新方法，旨在减弱后门攻击对多模态表征学习模型训练的影响。研究还提出了CLIP-benchmark，以评估CLIP性能的关键因素，并探讨多模态对比学习机制。MetaCLIP在多个基准测试中表现优异，Dp-CLIP关注数据隐私问题。SoftCLIP和EfficientCLIP通过不同策略提升跨模态检索效果，CLIPPINGS框架在图像-文本对齐方面表现突出。

消除 CLIP 的偏差：多模态学习中数据平衡的实用性如何？

BriefGPT - AI 论文速递 ·

本文介绍了oolns攻击，使用双嵌入引导框架实现抵抗后门检测和模型优化防御。该攻击对后门防御具有优势，引发了对多模态对比学习的潜在威胁的关注。

VL-Trojan: 自回归视觉语言模型的多模态指令后门攻击

BriefGPT - AI 论文速递 ·