增强的 BERT 嵌入用于学术出版物分类

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了一种新的文本分类方法,使用自然语言处理技术和预训练的语言模型从ArXiv数据集中提取有意义的表示。该方法比传统的标签系统更有效地捕捉主题信息,改善了文本分类。该方法有潜力为科学研究文献提供更好的导航和推荐系统。

🎯

关键要点

  • 本研究提出了一种针对未知类别的科学文献的文本分类新方法。
  • 使用自然语言处理技术和预训练的语言模型(SciBERT)从ArXiv数据集中提取有意义的表示。
  • 文本分类采用K-Means算法,并根据Silhouette得分确定最佳聚类数。
  • 研究结果表明,该方法比传统的arXiv标签系统更有效地捕捉主题信息。
  • 该方法为科学研究文献提供了更好的导航和推荐系统的潜力。
➡️

继续阅读