从世界到代码：通过自我指导的组合式标题生成和过滤实现多模态数据生成

本研究针对传统多模态数据生成中高质量对齐数据缺乏的问题，提出了一种名为“从世界到代码”（W2C）的新型多模态数据构建管道。该方法通过利用视觉语言模型（VLM）提取跨模态信息，并运用一致性过滤策略提高生成质量，实验表明其在视觉问答和视觉定位等基准任务上表现出色，展现了VLM在代码解析能力上的优势。

本文介绍了一种名为JADE的新方法，利用多模态模型生成和过滤视觉问答及密集字幕数据集。应用于CC3M数据集，生成了CC3M-QA-DC数据集。通过多任务预训练，CC3M-QA-DC在下游任务中提升了多种网络的性能，并在相同计算条件下与使用更多数据的模型相比取得了竞争力的结果。

CC3M-QA-DC JADE 多任务预训练多模态模型视觉问答