基于文本的神经协同过滤模型用于论文来源追踪

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

本文研究了论文来源追踪,构建了高质量数据集PST-Bench,揭示了不同主题的演化模式。提出了一种基于深度学习的模型,结合BERT和GCN,提升了文章引用建议的准确率。同时探讨了科学出版领域的扩展及自然语言处理在知识提取中的潜力,并提出了新数据集和工具供社区使用。

🎯

关键要点

  • 本文研究了论文来源追踪的问题,构建了高质量的数据集PST-Bench,揭示了不同主题的演化模式。

  • 提出了一种基于深度学习的模型,结合BERT和GCN,提升了文章引用建议的准确率。

  • 修改了PeerRead数据集,提出新的数据集全文PeerRead,包含指向引用和文章元数据的上下文句子取样。

  • 在KDD-2024 OAG-Challenge中,基于BERT和GCN的解决方案取得了显著的成绩。

  • 提出了一种多任务推荐系统,从科学论文中提取关键信息,采用多种深度学习技术。

  • 通过SessionBERT方法识别用户画像,提供个性化的网页用户体验和推荐服务。

  • 构建了新数据集PMOA-CITE,证明了模型在引用检测中的高性能,并揭示了促进和抑制引用的语言特征。

  • 探讨了自然语言处理在科学出版领域的潜力,提出了SourceData-NLP数据集的构建方法。

  • 研究了神经生成摘要模型如何将源信息转化为摘要,并比较了多种自动源句子检测方法。

  • 提出KCF-PLM方法,结合评论文本和预训练语言模型,解决个性化评分预测问题。

延伸问答

什么是PST-Bench数据集,它的用途是什么?

PST-Bench是一个高质量的数据集,用于研究论文来源追踪,揭示不同主题的演化模式。

本文提出的深度学习模型有哪些关键技术?

该模型结合了BERT和图卷积网络(GCN),用于提升文章引用建议的准确率。

KDD-2024 OAG-Challenge中,研究团队的表现如何?

研究团队在KDD-2024 OAG-Challenge中获得了第二名,得分为0.47691。

如何通过SessionBERT方法改善用户体验?

SessionBERT方法通过识别用户画像,提供个性化的网页用户体验和推荐服务。

PMOA-CITE数据集的特点是什么?

PMOA-CITE是一个新数据集,证明了模型在引用检测中的高性能,F1得分达到0.856。

自然语言处理在科学出版领域的潜力是什么?

自然语言处理可以自动从大量出版物和预印本中提取知识,提升科学出版的效率。

🏷️

标签

➡️

继续阅读