💡
原文中文,约4500字,阅读约需11分钟。
📝
内容提要
SciQAG-24D是一个用于微调和评估大语言模型的科学QA数据集,通过从科学文献中生成高质量的问答对。研究人员使用SciQAG框架构建了这个数据集,并使用RACAR指标对问答对进行评估和筛选。实验证明,在SciQAG-24D数据集上对LLM进行微调可以显著提高其在开放式问题解答和科学任务中的性能。
🎯
关键要点
- SciQAG-24D是一个用于微调和评估大语言模型的科学QA数据集,包含188,042个问答对。
- 现有科学QA数据集存在形式单一、内容来源低层次、依赖人类专家标注等不足。
- SciQAG框架由QA生成器和QA评估器组成,旨在快速生成高质量的科学问答对。
- QA生成器通过提取关键词生成问答对,评估器使用RACAR指标评估问答对质量。
- 研究人员从24个科学领域的22,743篇论文中提取数据,构建了SciQAG-24D数据集。
- 在SciQAG-24D数据集上微调LLM显著提高了其在科学任务中的性能。
- 实验结果显示,GPT-4在科学问答性能上表现优异,LLaMA1-QA经过微调后性能显著提升。
- SciQAG-24D数据集可用于微调LLM和评估其在科学领域的开放式问答能力。
➡️