主题建模的迭代方法
原文约300字,阅读约需1分钟。发表于: 。使用 BERTopic 包进行迭代过程的主题建模,通过聚类比较选定的三种评估标准,展示了无法进一步改进的一组主题。该方法在 COVIDSenti-A 数据集的子集上进行演示,并显示了早期成功,表明将其与其他主题建模算法结合使用的进一步研究可能是可行的。
本研究使用BERT模型、UMAP降维和K-Means聚类算法从未分类的文本集合中获取主题。通过TF-IDF统计、主题多样性和主题连贯性评估主题的含义。结果显示主题建模是对无标签文本进行分类或聚类的可行选择。