基于自然语言处理的原始研究文章分类之外
原文中文,约300字,阅读约需1分钟。发表于: 。本研究提出了一种针对未知类别的科学文献的文本分类的新方法,使用自然语言处理技术。该研究利用预训练的语言模型(特别是 SciBERT)从 ArXiv 数据集的摘要中提取有意义的表示。文本分类使用 K-Means 算法进行,并根据 Silhouette 得分确定最佳聚类数。结果表明,所提出的方法比传统的 arXiv...
该研究提出了一种使用自然语言处理技术的新方法,针对未知类别的科学文献进行文本分类。研究利用预训练的语言模型从 ArXiv 数据集的摘要中提取有意义的表示,并使用 K-Means 算法进行文本分类。结果表明,该方法比传统的 arXiv 标签系统更有效地捕捉主题信息,为科学研究文献提供了更好的导航和推荐系统的潜力。