本文介绍了可控图像-文本合成管道CtrlSynth,旨在提升多模态学习的数据效率和鲁棒性。通过将图像的视觉语义分解为基本元素,用户可自定义合成策略。CtrlSynth利用预训练模型生成自然多样的合成样本,显著提升了CLIP模型在零-shot分类、图像-文本检索和组合推理等任务中的表现。
完成下面两步后,将自动完成登录并继续当前操作。