💡
原文英文,约200词,阅读约需1分钟。
📝
内容提要
本文提出了一种基于Mimic Score的新数据选择方法,旨在优化大规模网络数据集中的样本选择,以提高数据效率。该方法通过参考模型权重评估样本质量,并在六个图像数据集上实现了性能提升。
🎯
关键要点
- 本文提出了一种基于Mimic Score的新数据选择方法,旨在优化大规模网络数据集中的样本选择。
- 该方法通过参考模型权重评估样本质量,提高数据效率。
- 数据选择技术分为无模型变体和基于模型的变体,前者设计成本高且可能引入不必要的依赖,后者计算开销大。
- Mimic Score是一种新的数据质量指标,利用参考模型的权重评估单个样本对新模型训练的有用性。
- Grad-Mimic框架使用Mimic Scores优先选择学习样本,创建有效过滤器并自动化数据选择。
- 使用Mimic Scores指导训练可以提高数据效率,在六个图像数据集上实现一致的性能提升。
- Mimic Score基础的过滤器优于现有的过滤方法,能够减少样本数量并提高CLIP模型的训练质量。
🏷️
标签
➡️