Apple Machine Learning Research ·

通过模仿模型权重评估样本效用以进行数据选择

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

本文提出了一种基于Mimic Score的新数据选择方法，旨在优化大规模网络数据集中的样本选择，以提高数据效率。该方法通过参考模型权重评估样本质量，并在六个图像数据集上实现了性能提升。

🎯

🔎

Mimic Score作为一种新型数据质量指标，通过参考模型的权重评估样本的有效性，能够更精准地选择对新模型训练有帮助的样本。这种方法不仅提高了数据选择的效率，还能显著提升模型的训练质量，尤其是在处理大规模数据集时，具有重要的实用价值。

在数据选择过程中，模型无关的变体虽然设计灵活，但可能引入不必要的依赖，导致效率低下。而基于模型的变体虽然计算开销大，但Mimic Score的引入有效降低了这一成本，使得数据选择变得更加高效。理解这些挑战有助于研究人员在选择数据选择方法时做出更明智的决策。

Grad-Mimic框架利用Mimic Scores优先选择学习样本，能够自动化数据选择过程。这一框架的有效性在多个图像数据集上得到了验证，表明其在实际应用中的潜力。研究人员和开发者可以考虑将这一框架应用于自己的数据处理流程，以提高模型训练的效率和效果。

❓

Mimic Score是一种新的数据质量指标，通过参考模型的权重评估单个样本对新模型训练的有用性。

Grad-Mimic框架使用Mimic Scores优先选择学习样本，创建有效过滤器并自动化数据选择。

使用Mimic Scores指导训练可以提高数据效率，并在六个图像数据集上实现一致的性能提升。

数据选择技术分为无模型变体和基于模型的变体，前者设计成本高且可能引入不必要的依赖，后者计算开销大。

Mimic Score基础的过滤器能够减少样本数量并提高CLIP模型的训练质量。

Mimic Score在六个图像数据集上实现了性能提升，能够有效过滤样本并提高训练质量。

🏷️