机器之心 ·

为大模型提供全新科学复杂问答基准与测评体系，UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

SciQAG-24D是一个用于微调和评估大语言模型的科学QA数据集，通过从科学文献中生成高质量的问答对。研究人员使用SciQAG框架构建了这个数据集，并使用RACAR指标对问答对进行评估和筛选。实验证明，在SciQAG-24D数据集上对LLM进行微调可以显著提高其在开放式问题解答和科学任务中的性能。

🎯

关键要点

SciQAG-24D是一个用于微调和评估大语言模型的科学QA数据集，包含188,042个问答对。
现有科学QA数据集存在形式单一、内容来源低层次、依赖人类专家标注等不足。
SciQAG框架由QA生成器和QA评估器组成，旨在快速生成高质量的科学问答对。
QA生成器通过提取关键词生成问答对，评估器使用RACAR指标评估问答对质量。
研究人员从24个科学领域的22,743篇论文中提取数据，构建了SciQAG-24D数据集。
在SciQAG-24D数据集上微调LLM显著提高了其在科学任务中的性能。
实验结果显示，GPT-4在科学问答性能上表现优异，LLaMA1-QA经过微调后性能显著提升。
SciQAG-24D数据集可用于微调LLM和评估其在科学领域的开放式问答能力。

❓

延伸问答

SciQAG-24D数据集的主要用途是什么？

SciQAG-24D数据集主要用于微调大语言模型（LLM）和评估其在科学领域的开放式问答能力。

SciQAG框架是如何生成科学问答对的？

SciQAG框架通过QA生成器提取关键词并生成问答对，随后使用QA评估器根据RACAR指标评估问答对的质量。

SciQAG-24D数据集包含多少个问答对？

SciQAG-24D数据集包含188,042个问答对。

使用SciQAG-24D微调LLM的效果如何？

在SciQAG-24D数据集上微调LLM显著提高了其在开放式问题解答和科学任务中的性能。

RACAR指标在SciQAG框架中有什么作用？

RACAR指标用于评估生成的问答对质量，包括相关性、不可知性、完整性、准确性和合理性等维度。

SciQAG-24D数据集的来源是什么？

SciQAG-24D数据集的数据来源于24个科学领域的22,743篇科学论文。

🏷️