半监督学习
原文中文,约2900字,阅读约需7分钟。发表于: 。在实际生活中,常常会出现一部分样本有标记和较多样本无标记的情形,例如:做网页推荐时需要让用户标记出感兴趣的网页,但是少有用户愿意花时间来提供标记。若直接丢弃掉无标记样本集,使用传统的监督学习方法,常常会由于训练样本的不充足,使得其刻画总体分布的能力减弱,从而影响了学习器泛化性能。那如何利用未标记的样本数据呢?
监督学习是训练样本包含标记信息的学习任务,无监督学习是训练样本不包含标记信息的学习任务。主动学习通过使用有标记样本数据集训练学习器,再基于该学习器对未标记样本进行预测,从中挑选出不确定性高或分类置信度低的样本来咨询专家并进行打标,最后使用扩充后的训练集重新训练学习器,以降低标记成本。半监督学习利用未标记样本所包含的分布信息,训练集同时包含有标记样本数据和未标记样本数据。生成式方法是基于生成式模型的方法,通过对联合分布建模进一步求解后验概率。半监督SVM试图为未标记样本找到合适的标记指派,使得超平面划分后的间隔最大化。基于分歧的方法通过多个学习器之间的分歧来利用未标记样本数据,协同训练是其中的一种方法。半监督聚类是借助已有的监督信息来辅助聚类的过程。