BriefGPT - AI 论文速递 ·

基于文本的神经协同过滤模型用于论文来源追踪

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文研究了论文来源追踪，构建了高质量数据集PST-Bench，揭示了不同主题的演化模式。提出了一种基于深度学习的模型，结合BERT和GCN，提升了文章引用建议的准确率。同时探讨了科学出版领域的扩展及自然语言处理在知识提取中的潜力，并提出了新数据集和工具供社区使用。

🎯

关键要点

本文研究了论文来源追踪的问题，构建了高质量的数据集PST-Bench，揭示了不同主题的演化模式。
提出了一种基于深度学习的模型，结合BERT和GCN，提升了文章引用建议的准确率。
修改了PeerRead数据集，提出新的数据集全文PeerRead，包含指向引用和文章元数据的上下文句子取样。
在KDD-2024 OAG-Challenge中，基于BERT和GCN的解决方案取得了显著的成绩。
提出了一种多任务推荐系统，从科学论文中提取关键信息，采用多种深度学习技术。
通过SessionBERT方法识别用户画像，提供个性化的网页用户体验和推荐服务。
构建了新数据集PMOA-CITE，证明了模型在引用检测中的高性能，并揭示了促进和抑制引用的语言特征。
探讨了自然语言处理在科学出版领域的潜力，提出了SourceData-NLP数据集的构建方法。
研究了神经生成摘要模型如何将源信息转化为摘要，并比较了多种自动源句子检测方法。
提出KCF-PLM方法，结合评论文本和预训练语言模型，解决个性化评分预测问题。

❓

延伸问答

什么是PST-Bench数据集，它的用途是什么？

PST-Bench是一个高质量的数据集，用于研究论文来源追踪，揭示不同主题的演化模式。

本文提出的深度学习模型有哪些关键技术？

该模型结合了BERT和图卷积网络（GCN），用于提升文章引用建议的准确率。

KDD-2024 OAG-Challenge中，研究团队的表现如何？

研究团队在KDD-2024 OAG-Challenge中获得了第二名，得分为0.47691。

如何通过SessionBERT方法改善用户体验？

SessionBERT方法通过识别用户画像，提供个性化的网页用户体验和推荐服务。

PMOA-CITE数据集的特点是什么？

PMOA-CITE是一个新数据集，证明了模型在引用检测中的高性能，F1得分达到0.856。

自然语言处理在科学出版领域的潜力是什么？

自然语言处理可以自动从大量出版物和预印本中提取知识，提升科学出版的效率。

🏷️

标签

BERT PST-Bench 深度学习知识提取论文来源追踪

➡️

继续阅读

AI 博客问题挑战
文章讨论了作者对人工智能（AI）模型的看法，特别是深度学习和语言模型的演变。作者认为AI在提升生产力方面具有潜力，但也对其对人类福祉的影响表示担忧。尽管存...
DXC与Anthropic合作，将Claude模型投入生产环境
DXC Technology与AI安全公司Anthropic达成多年合作，成为Claude模型的全球顶级合作伙伴之一。双方将培训数万名Claude认证工程...
谷歌DeepMind最新论文揭秘AI终局：从AGI到ASI，有4条路和6道关
过去十年，人工智能（AI）迅速发展，通用人工智能（AGI）成为研究目标。探讨AGI后AI是否会演进至超级人工智能（ASI），提出四条可能路径：扩展计算、算...
低成本复刻Fable 5的路子找到了：OrcaRouter多模型组队，性能反超
OrcaRouter推出了一种可编程路由策略，允许多个AI模型并行回答问题并自动选择最佳答案。通过智能编排，组合模型的表现超越了单一强模型，降低了成本，并...
阿里巴巴否认首席科学家周靖人辞职；美禁止境外获取Anthropic最强模型；SK海力士去年新增员工超2000人
阿里巴巴否认首席科学家周靖人辞职传闻，称其为谣言。华为发布HarmonyOS 7，成为中国第二大智能手机操作系统。SK海力士去年新增员工超2000人，受A...
大脑预测加工理论：分类完全“根植”在我们的神经结构中
文章探讨了大脑的分类机制，认为分类是感知的起点而非终点。大脑通过预测加工节省能量，主动猜测感官输入，形成对世界的理解。这一理论解释了颜色感知、疼痛体验及精...