CtrlSynth:可控图像-文本合成用于数据高效的多模态学习
原文英文,约300词,阅读约需1分钟。发表于: 。Pretraining robust vision or multimodal foundation models (e.g., CLIP) relies on large-scale datasets that may be noisy, potentially misaligned, and have long-tail distributions. Previous works...
本文介绍了可控图像-文本合成管道CtrlSynth,旨在提升多模态学习的数据效率和鲁棒性。通过将图像的视觉语义分解为基本元素,用户可自定义合成策略。CtrlSynth利用预训练模型生成自然多样的合成样本,显著提升了CLIP模型在零-shot分类、图像-文本检索和组合推理等任务中的表现。