小标记和大无标记集合下的神经网络抵抗(以及支持)自训练:分类

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

我们提出了一种基于神经网络的半监督文本分类器,利用自训练的正负属性。通过重新定义伪标签的角色和构建层次化信息结构,解决了语义漂移问题。同时,采用混合度量方法代替简单的置信度测量,克服了神经网络输出的欠校准问题。在五个标准基准测试中,我们的模型明显优于十个多样化的基准模型。此外,我们的模型对于语言模型预训练的改进具有附加性。

🎯

关键要点

  • 提出了一种基于神经网络的半监督文本分类器,利用自训练的正负属性。

  • 重新定义伪标签的角色,构建层次化信息结构,以解决语义漂移问题。

  • 采用混合度量方法替代简单的置信度测量,克服神经网络输出的欠校准问题。

  • 在五个标准基准测试中,模型明显优于十个多样化的基准模型。

  • 模型对于语言模型预训练的改进具有附加性。

🏷️

标签

➡️

继续阅读