Yandex 发布 Alchemist：用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

实时互动网 ·

Yandex 发布 Alchemist：用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

Yandex 发布了 Alchemist，一个包含 3,350 个图像-文本对的公开 SFT 数据集，旨在提升文本到图像生成模型的输出质量。该数据集通过预训练的扩散模型筛选样本，注重高质量而非数量。评估结果显示，使用 Alchemist 微调的模型在美学和复杂度上显著提升，同时保持文本-图像相关性稳定。这一方法为生成视觉模型设定了新标准和资源。

🎯

关键要点

Yandex 发布了 Alchemist，一个包含 3,350 个图像-文本对的公开 SFT 数据集，旨在提升文本到图像生成模型的输出质量。
Alchemist 通过预训练的扩散模型筛选样本，注重高质量而非数量。
使用 Alchemist 微调的模型在美学和复杂度上显著提升，同时保持文本-图像相关性稳定。
传统的 SFT 数据集质量不足，难以实现高美观度和对齐度。
Alchemist 采用新颖的方法构建，利用预先训练的扩散模型作为样本质量评估器。
构建 Alchemist 的多级过滤流程从约 100 亿张网络图像开始，经过初始过滤、粗略质量过滤、去重和基于 IQA 的剪枝、基于扩散的筛选等步骤。
最终选定的图像将使用经过微调的视觉语言模型重新添加字幕，以确保更好的对齐和可用性。
Alchemist 在五种稳定扩散变体上进行了评估，调优后的模型在美学和复杂度得分方面表现显著提升。
使用更大的 Alchemist 变体进行微调会导致性能下降，强调样本质量的重要性。
Alchemist 为通用 SFT 数据集树立了新标准，为提升生成视觉模型输出质量的研究人员和开发者提供了宝贵的资源。

🏷️

继续阅读

从原始数值识别嵌入模型
嵌入向量中的数字模式显著影响生成模型和推理指令。我们训练了一个小型变换器分类器，准确率达到87%。可以实时演示，粘贴任意嵌入向量以查看分类结果。
黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR最佳论文作者带队
Luma AI推出的Uni-1模型在图像理解与生成方面表现优异，超越谷歌的Nano Banana Pro和GPT Image 1.5。该模型由不到15人的...
MOSS-TTS：基于 CAT 架构的解耦式生产级语音生成模型；打破单细胞分析壁垒：Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准
MOSS-TTS系列是MOSI.AI与OpenMOSS联合推出的多模型语音生成工具，克服了单一模型在复杂场景中的局限，支持高保真语音、对话和实时交互，适用...
我们的开源AI模型SpeciesNet如何助力野生动物保护
SpeciesNet是一个AI模型，能够自动识别近2500种动物，帮助生物学家和保护者快速分析相机捕捉的数据。自2019年起，该工具在多个国家的项目中应用...
免费无限量的 GLM-5、Qwen3.5-398B 模型，AtomGit 限时免费
AtomGit推出限时活动，用户可免费使用GLM-5和Qwen3.5-398B模型。但OpenClaw的上下文限制为16K，可能存在设置错误。注册后可调用...
技术获 NVIDIA、Pi 双重认可！原力灵机 DM0 模型重塑具身智能新范式
原力灵机 DM0 模型通过 MemoryVLA 和 Real-time VLA 技术，获得 NVIDIA 和 Pi 的认可，显著提升了机器人的智能和反应速...

Yandex 发布 Alchemist：用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

内容提要

关键要点

标签

继续阅读