我们介绍了一个手动注释的数据集(NC-SentNoB),用于识别预先存在的包含约 15k 个噪声孟加拉文本的情感分析数据集中的十种不同类型的噪声。我们首先根据输入的噪声文本识别噪声类型,并引入基线噪声降低方法以减轻噪声,然后评估了经过微调的情感分析模型在噪声和降噪文本上的性能,实验结果表明所使用的噪声降低方法不令人满意,强调了未来研究需要更合适的噪声降低方法。
介绍了手动注释的NC-SentNoB数据集,用于识别约15k个噪声孟加拉文本中的十种不同类型的噪声。实验结果显示现有的噪声降低方法不理想,强调了未来研究需要更合适的方法。