基于聚类敏感性采样的数据高效学习:基础模型与扩展

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

给定一个大小为N的样本,需要选择一个更小的子样本n<N进行统计估计或学习。数据选择可以非常有效,甚至可以击败在整个样本上进行训练。某些常见的数据选择方法可能不够优化。

🎯

关键要点

  • 给定一个大小为N的样本,需要选择一个更小的子样本n<N进行统计估计或学习。
  • 假设有N个未标记的样本和一个能够比随机猜测更好地预测标签的替代模型。
  • 目标是选择一个子样本集用于训练模型,通过正则化经验风险最小化进行标签预测。
  • 数据选择可以非常有效,某些情况下甚至可以击败在整个样本上进行训练。
  • 某些常见的数据选择方法可能明显不够优化,例如无偏加权子抽样或基于影响函数的子抽样。
➡️

继续阅读