通过代表性和多样化样本选择增强半监督学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
通过实验和数学推导,展示了数据选择可以非常有效,甚至可以击败在整个样本上进行训练。某些常见的数据选择方法可能不够优化。
🎯
关键要点
- 在统计估计或学习中,通常需要从大小为N的样本中选择一个更小的子样本。
- 假设有N个未标记的样本和一个能够比随机猜测更好地预测标签的替代模型。
- 目标是选择一个子样本集用于训练模型,并通过正则化经验风险最小化进行标签预测。
- 实验和数学推导表明,数据选择可以非常有效,某些情况下甚至优于在整个样本上进行训练。
- 某些常见的数据选择方法可能明显不够优化,例如无偏加权子抽样或基于影响函数的子抽样。
➡️