为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

💡 原文中文,约4500字,阅读约需11分钟。
📝

内容提要

SciQAG-24D是一个用于微调和评估大语言模型的科学QA数据集,通过从科学文献中生成高质量的问答对。研究人员使用SciQAG框架构建了这个数据集,并使用RACAR指标对问答对进行评估和筛选。实验证明,在SciQAG-24D数据集上对LLM进行微调可以显著提高其在开放式问题解答和科学任务中的性能。

🎯

关键要点

  • SciQAG-24D是一个用于微调和评估大语言模型的科学QA数据集,包含188,042个问答对。
  • 现有科学QA数据集存在形式单一、内容来源低层次、依赖人类专家标注等不足。
  • SciQAG框架由QA生成器和QA评估器组成,旨在快速生成高质量的科学问答对。
  • QA生成器通过提取关键词生成问答对,评估器使用RACAR指标评估问答对质量。
  • 研究人员从24个科学领域的22,743篇论文中提取数据,构建了SciQAG-24D数据集。
  • 在SciQAG-24D数据集上微调LLM显著提高了其在科学任务中的性能。
  • 实验结果显示,GPT-4在科学问答性能上表现优异,LLaMA1-QA经过微调后性能显著提升。
  • SciQAG-24D数据集可用于微调LLM和评估其在科学领域的开放式问答能力。

延伸问答

SciQAG-24D数据集的主要用途是什么?

SciQAG-24D数据集主要用于微调大语言模型(LLM)和评估其在科学领域的开放式问答能力。

SciQAG框架是如何生成科学问答对的?

SciQAG框架通过QA生成器提取关键词并生成问答对,随后使用QA评估器根据RACAR指标评估问答对的质量。

SciQAG-24D数据集包含多少个问答对?

SciQAG-24D数据集包含188,042个问答对。

使用SciQAG-24D微调LLM的效果如何?

在SciQAG-24D数据集上微调LLM显著提高了其在开放式问题解答和科学任务中的性能。

RACAR指标在SciQAG框架中有什么作用?

RACAR指标用于评估生成的问答对质量,包括相关性、不可知性、完整性、准确性和合理性等维度。

SciQAG-24D数据集的来源是什么?

SciQAG-24D数据集的数据来源于24个科学领域的22,743篇科学论文。

➡️

继续阅读