基于文本的神经协同过滤模型用于论文来源追踪
原文中文,约400字,阅读约需1分钟。发表于: 。通过数据挖掘技术,利用预训练的语言模型 SciBERT 来处理论文的文本属性并提取模型的输入特征,在 KDD CUP 2024 中,设计了一个基于推荐的框架用于自动识别给定学术文章的重要参考文献。根据实验结果,该方法在平均准确率(MAP)指标上取得了 0.37814 的分数,优于基准模型,并在所有参与队伍中排名第 11 位。
研究人员使用注意力机制的双向长短期记忆网络和环境信息构建了一个比以前数据集大数个数量级的新数据集,并在标准和新数据集上达到了最先进的性能。他们还使用可解释的模型揭示了促进和抑制引用的特定语言的运用,并发现了改进预测的关键。他们还检查了模型的错误预测,并发现了人类引用行为和来源数据中的系统性错误。他们将这个新数据集、代码和基于网络的工具提供给社区。