晓飞的算法工程笔记 ·

DataDream：调一调更好，基于LoRA微调SD的训练集合成新方案 | ECCV'24 - 晓飞的算法工程笔记

💡 原文中文，约7200字，阅读约需18分钟。

📝

内容提要

DataDream 提出了一种新方法，通过微调生成模型的 LoRA 权重，用少量真实数据生成更真实的合成数据集，提高了分类准确率。实验显示，该方法在多个数据集上优于现有方法，并分析了真实与合成数据数量对性能的影响。

🎯

❓

DataDream通过微调生成模型的LoRA权重，利用少量真实数据生成更真实的合成数据集，从而提高分类准确率。

在10个数据集中，DataDream在7个数据集上超越了最先进的分类准确率，其余3个数据集表现也相当。

论文分析了真实与合成数据数量对模型性能的影响，探讨了方法的可扩展性，显示增加数据量有潜在好处。

LoRA方法用于微调Stable Diffusion模型，以适应少量真实数据，从而改善合成数据的质量。

DataDream通过微调生成模型，能够更好地对齐真实数据分布，改善合成数据质量，提升分类性能。

使用调整后的生成模型，在相同的文本提示条件下为每个类别生成500张图像，形成合成数据集。

🏷️