通过代表性和多样化样本选择增强半监督学习

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

通过实验和数学推导,展示了数据选择可以非常有效,甚至可以击败在整个样本上进行训练。某些常见的数据选择方法可能不够优化。

🎯

关键要点

  • 在统计估计或学习中,通常需要从大小为N的样本中选择一个更小的子样本。
  • 假设有N个未标记的样本和一个能够比随机猜测更好地预测标签的替代模型。
  • 目标是选择一个子样本集用于训练模型,并通过正则化经验风险最小化进行标签预测。
  • 实验和数学推导表明,数据选择可以非常有效,某些情况下甚至优于在整个样本上进行训练。
  • 某些常见的数据选择方法可能明显不够优化,例如无偏加权子抽样或基于影响函数的子抽样。
➡️

继续阅读