GraphextQA:评估图增强大语言模型的基准

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了SciGraphQA数据集,它是一个合成的多轮问答数据集,使用295K个开放式多轮问答对话样本,并通过GPT-4评估了问题-回答的匹配质量。通过利用从图表中提取的序列化数据表格和DePlot模型,使用LLaVA-13B进行了进一步的改进,最终的评估CIDEr为0.26。

🎯

关键要点

  • SciGraphQA是一个与学术图表相关的合成多轮问答数据集。
  • 这是迄今为止最大的非合成图表视觉问答数据集。
  • 使用Palm-2从计算机科学和机器学习ArXiv论文中生成了295K个开放式多轮问答对话样本。
  • 通过GPT-4评估了问题-回答的匹配质量。
  • 利用从图表中提取的序列化数据表格和DePlot模型进行了进一步改进。
  • 最终评估CIDEr为0.26。
➡️

继续阅读