利用弱监督生成印尼保护数据集
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究提出了一种标签降噪器,通过多种易于提供的规则作为多种弱监督源,学习神经文本分类器的问题。该模型在情感、主题和关系分类的五个基准测试上进行了评估,结果表明,即使没有任何标注数据,该模型也可以达到与全监督方法相当的性能水平。
🎯
关键要点
- 研究提出了一种标签降噪器,旨在在没有标注数据的情况下学习神经文本分类器。
- 该模型利用多种易于提供的规则作为弱监督源。
- 使用条件软注意机制来估计源的可靠性,并通过聚合弱标签降低标签噪声。
- 清理过的伪标签用于训练神经分类器。
- 在情感、主题和关系分类的五个基准测试上进行评估,结果显示该模型优于最先进的弱监督和半监督方法。
- 即使没有标注数据,该模型也能达到与全监督方法相当的性能水平。
➡️