通过模仿模型权重评估样本效用以进行数据选择

通过模仿模型权重评估样本效用以进行数据选择

💡 原文英文,约200词,阅读约需1分钟。
📝

内容提要

本文提出了一种基于Mimic Score的新数据选择方法,旨在优化大规模网络数据集中的样本选择,以提高数据效率。该方法通过参考模型权重评估样本质量,并在六个图像数据集上实现了性能提升。

🎯

关键要点

  • 本文提出了一种基于Mimic Score的新数据选择方法,旨在优化大规模网络数据集中的样本选择。
  • 该方法通过参考模型权重评估样本质量,提高数据效率。
  • 数据选择技术分为无模型变体和基于模型的变体,前者设计成本高且可能引入不必要的依赖,后者计算开销大。
  • Mimic Score是一种新的数据质量指标,利用参考模型的权重评估单个样本对新模型训练的有用性。
  • Grad-Mimic框架使用Mimic Scores优先选择学习样本,创建有效过滤器并自动化数据选择。
  • 使用Mimic Scores指导训练可以提高数据效率,在六个图像数据集上实现一致的性能提升。
  • Mimic Score基础的过滤器优于现有的过滤方法,能够减少样本数量并提高CLIP模型的训练质量。
➡️

继续阅读