增强的 BERT 嵌入用于学术出版物分类
原文中文,约300字,阅读约需1分钟。发表于: 。本研究报告介绍了基于预训练语言模型的转移学习方法在学术文献分类中的运用。通过丰富数据集、使用不同的预训练语言模型,并调整超参数,研究发现 fine-tuning 预训练模型可以显著提高分类性能,其中 SPECTER2 模型效果最佳。此外,将额外的元数据加入数据集,尤其是来自 S2AG、OpenAlex 和 Crossref...
本研究提出了一种新的文本分类方法,使用自然语言处理技术和预训练的语言模型从ArXiv数据集中提取有意义的表示。该方法比传统的标签系统更有效地捕捉主题信息,改善了文本分类。该方法有潜力为科学研究文献提供更好的导航和推荐系统。