PeerArg:基于大型语言模型的论证性同行评审
内容提要
本文介绍了一个公开的科学领域数据集,聚焦于同行评审中的文本数据,提出了基于NLP的新任务和模型。研究了审稿过程的效率与公平性,分析了大量审稿意见。通过大型语言模型,探讨了自动化审稿生成的潜力,呼吁科学界推动NLP在同行评审中的应用,以提高科学质量控制。
关键要点
-
本文介绍了一个公开的科学领域数据集,集中在同行评审中使用的文本数据。
-
提出了两个基于NLP的新任务,包括预测文章是否被接受和审稿的数值分数。
-
研究了同行评审过程的效率与公平性,分析了来自机器学习和自然语言处理领域的14.2K份审稿意见。
-
通过大型语言模型研究同行评审中的公平性差异,观察到不同属性(如作者性别、地理位置等)对评审结果的影响。
-
NLPeer是第一个跨领域的伦理资源,包含超过5k篇论文和11k份审稿报告,为NLP研究提供了基础。
-
提出了一种高效的两阶段审稿生成框架Reviewer2,以生成更详细的审稿。
-
利用大型语言模型引入生成式同伴预测机制(GPPM)和生成式简介同伴预测机制(GSPPM),以提高反馈质量。
-
呼吁科学界和NLP研究人员共同推动NLP在同行评审中的应用,以提高科学质量控制。
延伸问答
PeerArg项目的主要目标是什么?
PeerArg项目旨在利用大型语言模型提高同行评审的效率与公平性,推动NLP在科学质量控制中的应用。
NLPeer数据集包含哪些内容?
NLPeer数据集包含超过5000篇论文和11000份审稿报告,提供了跨领域的伦理资源。
文章中提到的两种新任务是什么?
文章提出的两种新任务是预测文章是否被接受和审稿的数值分数。
如何评估同行评审过程中的公平性?
通过分析不同属性(如作者性别和地理位置)对评审结果的影响,研究同行评审中的公平性差异。
PeerArg如何解决自动审稿生成的细节问题?
PeerArg提出了一种两阶段审稿生成框架Reviewer2,以生成更详细和全面的审稿。
生成式同伴预测机制(GPPM)有什么作用?
GPPM旨在激励高质量的反馈,通过准确预测提高同行评审的质量。