为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

💡 原文中文,约4500字,阅读约需11分钟。
📝

内容提要

SciQAG-24D是一个用于微调和评估大语言模型的科学QA数据集,通过从科学文献中生成高质量的问答对。研究人员使用SciQAG框架构建了这个数据集,并使用RACAR指标对问答对进行评估和筛选。实验证明,在SciQAG-24D数据集上对LLM进行微调可以显著提高其在开放式问题解答和科学任务中的性能。

🎯

关键要点

  • SciQAG-24D是一个用于微调和评估大语言模型的科学QA数据集,包含188,042个问答对。
  • 现有科学QA数据集存在形式单一、内容来源低层次、依赖人类专家标注等不足。
  • SciQAG框架由QA生成器和QA评估器组成,旨在快速生成高质量的科学问答对。
  • QA生成器通过提取关键词生成问答对,评估器使用RACAR指标评估问答对质量。
  • 研究人员从24个科学领域的22,743篇论文中提取数据,构建了SciQAG-24D数据集。
  • 在SciQAG-24D数据集上微调LLM显著提高了其在科学任务中的性能。
  • 实验结果显示,GPT-4在科学问答性能上表现优异,LLaMA1-QA经过微调后性能显著提升。
  • SciQAG-24D数据集可用于微调LLM和评估其在科学领域的开放式问答能力。
➡️

继续阅读