GraphextQA:评估图增强大语言模型的基准
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了SciGraphQA数据集,它是一个合成的多轮问答数据集,使用295K个开放式多轮问答对话样本,并通过GPT-4评估了问题-回答的匹配质量。通过利用从图表中提取的序列化数据表格和DePlot模型,使用LLaVA-13B进行了进一步的改进,最终的评估CIDEr为0.26。
🎯
关键要点
-
SciGraphQA是一个与学术图表相关的合成多轮问答数据集。
-
这是迄今为止最大的非合成图表视觉问答数据集。
-
使用Palm-2从计算机科学和机器学习ArXiv论文中生成了295K个开放式多轮问答对话样本。
-
通过GPT-4评估了问题-回答的匹配质量。
-
利用从图表中提取的序列化数据表格和DePlot模型进行了进一步改进。
-
最终评估CIDEr为0.26。
🏷️