💡
原文中文,约2100字,阅读约需5分钟。
📝
内容提要
Yandex 发布了 Alchemist,一个包含 3,350 个图像-文本对的公开 SFT 数据集,旨在提升文本到图像生成模型的输出质量。该数据集通过预训练的扩散模型筛选样本,注重高质量而非数量。评估结果显示,使用 Alchemist 微调的模型在美学和复杂度上显著提升,同时保持文本-图像相关性稳定。这一方法为生成视觉模型设定了新标准和资源。
🎯
关键要点
- Yandex 发布了 Alchemist,一个包含 3,350 个图像-文本对的公开 SFT 数据集,旨在提升文本到图像生成模型的输出质量。
- Alchemist 通过预训练的扩散模型筛选样本,注重高质量而非数量。
- 使用 Alchemist 微调的模型在美学和复杂度上显著提升,同时保持文本-图像相关性稳定。
- 传统的 SFT 数据集质量不足,难以实现高美观度和对齐度。
- Alchemist 采用新颖的方法构建,利用预先训练的扩散模型作为样本质量评估器。
- 构建 Alchemist 的多级过滤流程从约 100 亿张网络图像开始,经过初始过滤、粗略质量过滤、去重和基于 IQA 的剪枝、基于扩散的筛选等步骤。
- 最终选定的图像将使用经过微调的视觉语言模型重新添加字幕,以确保更好的对齐和可用性。
- Alchemist 在五种稳定扩散变体上进行了评估,调优后的模型在美学和复杂度得分方面表现显著提升。
- 使用更大的 Alchemist 变体进行微调会导致性能下降,强调样本质量的重要性。
- Alchemist 为通用 SFT 数据集树立了新标准,为提升生成视觉模型输出质量的研究人员和开发者提供了宝贵的资源。
➡️