AIGC时代,仅用合成数据训练模型到底行不行?来一探究竟 | CVPR 2024 - 晓飞的算法工程笔记
原文中文,约9200字,阅读约需22分钟。发表于: 。首个针对使用合成数据训练的模型在不同稳健性指标上进行详细分析的研究,展示了如SynCLIP和SynCLR等合成克隆模型,其性能在可接受的范围内接近于在真实图像上训练的对应模型。这一结论适用于所有稳健性指标,除了常见的图像损坏和OOD(域外分布)检测。另一方面,监督模型SynViT-B在除形状偏差外的
研究发现,合成克隆模型在稳健性方面表现良好,尤其在形状偏差方面。混合真实数据和合成数据可以改善模型的稳健性。研究还分析了合成克隆模型在校准、对抗性攻击和图像损坏方面的表现。消融实验揭示了提示、添加真实数据和数据集大小对合成克隆模型稳健性的影响。