基于自然语言处理的原始研究文章分类之外

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究提出了一种使用自然语言处理技术的新方法,针对未知类别的科学文献进行文本分类。研究利用预训练的语言模型从 ArXiv 数据集的摘要中提取有意义的表示,并使用 K-Means 算法进行文本分类。结果表明,该方法比传统的 arXiv 标签系统更有效地捕捉主题信息,为科学研究文献提供了更好的导航和推荐系统的潜力。

🎯

关键要点

  • 该研究提出了一种针对未知类别的科学文献的文本分类的新方法。

  • 使用自然语言处理技术,特别是预训练的语言模型 SciBERT。

  • 从 ArXiv 数据集的摘要中提取有意义的表示。

  • 文本分类使用 K-Means 算法,并根据 Silhouette 得分确定最佳聚类数。

  • 结果表明,该方法比传统的 arXiv 标签系统更有效地捕捉主题信息。

  • 该方法为科学研究文献提供了更好的导航和推荐系统的潜力。

➡️

继续阅读