精确度还是召回率?影像描述在训练文本到图像生成模型中的分析
📝
内容提要
本研究解决了文本到图像模型训练中,由于训练数据不一致导致生成的图像与文本描述不精确的问题。我们分析了描述精确性和召回率在模型训练中的关键作用,发现精确度对文本与图像的对齐影响更为显著。通过利用大型视觉语言模型生成合成描述,我们的研究表明,用这些合成描述训练的模型行为接近于用人工标注描述训练的模型,展示了合成数据在文本到图像训练中的潜力。
➡️