基于聚类敏感性采样的数据高效学习:基础模型与扩展
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
给定一个大小为N的样本,需要选择一个更小的子样本n<N进行统计估计或学习。数据选择可以非常有效,甚至可以击败在整个样本上进行训练。某些常见的数据选择方法可能不够优化。
🎯
关键要点
- 给定一个大小为N的样本,需要选择一个更小的子样本n<N进行统计估计或学习。
- 假设有N个未标记的样本和一个能够比随机猜测更好地预测标签的替代模型。
- 目标是选择一个子样本集用于训练模型,通过正则化经验风险最小化进行标签预测。
- 数据选择可以非常有效,某些情况下甚至可以击败在整个样本上进行训练。
- 某些常见的数据选择方法可能明显不够优化,例如无偏加权子抽样或基于影响函数的子抽样。
➡️