TF-IDF 特征加权方法的比较研究及其在非结构化数据集上的分析
原文中文,约200字,阅读约需1分钟。发表于: 。文本分类与特征加权方法,包括 N-Grams 和 TF-IDF,使用随机森林分类器实现最高的准确度(93.81%),精确度(94.20%),召回率(93.81%)和 F1-score(91.99%)值。
研究表明,利用基于地面真值注释和TF-IDF特征提取的新闻文章作为训练数据集,使用Multinomial Naive Bayes模型的准确率为99.46%,在预测未见数据时为88.98%。然而,该模型在将假新闻标记为真实新闻方面存在问题,需要进一步研究和改进语料库收集,并建议使用集成机器学习来加强预测。