Yandex 发布 Alchemist:用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

尽管 DALL-E 3、Imagen 3 和 Stable Diffusion 3 等模型在文本转图像 (T2I) 生成方面取得了显著进展,但实现一致的输出质量(包括美观度和对齐度...

Yandex 发布了 Alchemist,一个包含 3,350 个图像-文本对的公开 SFT 数据集,旨在提升文本到图像生成模型的输出质量。该数据集通过预训练的扩散模型筛选样本,注重高质量而非数量。评估结果显示,使用 Alchemist 微调的模型在美学和复杂度上显著提升,同时保持文本-图像相关性稳定。这一方法为生成视觉模型设定了新标准和资源。

Yandex 发布 Alchemist:用于提升文本转图像 T2I 模型质量的增强型监督微调数据集
原文中文,约2100字,阅读约需5分钟。发表于:
阅读原文