语义成分分析:超越主题的短文本模式发现
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对现有主题建模方法在短文本分析中的局限性,提出了一种新的“语义成分分析”(SCA)技术,通过引入分解步骤,能够发现超出单一主题的多个细分语义成分。该方法在多个Twitter数据集上的评估表明,SCA在连贯性和多样性方面与最先进的方法BERTopic相当,且发现的语义成分数量至少是其两倍,噪声率接近零,具备良好的扩展性,适用于多种语言,包括较少被研究的语言。
本研究提出了一种新的“语义成分分析”(SCA)技术,有效克服了短文本分析中的主题建模局限性。SCA在多个Twitter数据集上表现优异,发现的语义成分数量是BERTopic的两倍,噪声率接近零,适用于多种语言。