增强的 BERT 嵌入用于学术出版物分类
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种新的文本分类方法,使用自然语言处理技术和预训练的语言模型从ArXiv数据集中提取有意义的表示。该方法比传统的标签系统更有效地捕捉主题信息,改善了文本分类。该方法有潜力为科学研究文献提供更好的导航和推荐系统。
🎯
关键要点
- 本研究提出了一种针对未知类别的科学文献的文本分类新方法。
- 使用自然语言处理技术和预训练的语言模型(SciBERT)从ArXiv数据集中提取有意义的表示。
- 文本分类采用K-Means算法,并根据Silhouette得分确定最佳聚类数。
- 研究结果表明,该方法比传统的arXiv标签系统更有效地捕捉主题信息。
- 该方法为科学研究文献提供了更好的导航和推荐系统的潜力。
➡️