KDD 2024 OAG-Challenge Cup赛道三项冠军技术方案解读

KDD 2024 OAG-Challenge Cup赛道三项冠军技术方案解读

💡 原文中文,约8000字,阅读约需19分钟。
📝

内容提要

大众点评技术部的BlackPearl团队在KDD 2024 OAG-Challenge Cup赛道中以大模型解决了学术知识图谱挖掘问题,包括论文同名消歧、论文源头追溯和学术论文问答。他们采用了自反馈增强的迭代式大模型文本聚类、Grafting-Learning技术和Automatic RAG & Feature Engineering技术等方法,取得了显著的优势。这些解决方案对于学术数据挖掘的发展具有重要意义。

🎯

关键要点

  • 大众点评技术部的BlackPearl团队在KDD 2024 OAG-Challenge Cup赛道中取得了全部赛题的冠军。
  • 学术数据挖掘的目标是加深对科学发展的理解,支持政策制定和知识获取。
  • KDD 2024 OAG-Challenge Cup包括论文同名消歧、论文源头追溯和学术论文问答三道赛题。
  • 论文同名消歧任务要求开发模型检测错误分配给作者的论文,面临样本数量多和信息量大的挑战。
  • BlackPearl团队将聚类任务转化为比较任务,采用自反馈增强的迭代式大模型文本聚类方法。
  • 论文源头追溯任务要求从给定论文中找出最重要的参考文献,面临数据集标签分布差异和冗长标识符的挑战。
  • 团队利用嫁接学习技术提高样本置信度,并提出Automatic RAG & Feature Engineering技术自动召回辅助信息。
  • 学术论文问答任务要求检索相关论文回答专业问题,面临数据噪声大的挑战。
  • 团队采用LLM进行向量表征,提出困难负样本挖掘和Boosting迭代方法提升模型性能。
  • BlackPearl团队通过大模型技术解决多个学术挖掘问题,展示了前沿科技的力量。
➡️

继续阅读