SK-VQA:用于训练上下文增强的多模态 LLM 的大规模合成知识生成
📝
内容提要
我们生成了一个包含超过 200 万个问题 - 答案对的大型综合多模态数据集 SK-VQA,该数据集需要外部知识来确定最终答案。通过广泛的实验,我们证明我们的合成数据集不仅可以作为一个具有挑战性的基准测试,而且对于调整现有的生成性多模态模型以进行上下文增强生成也非常有效。
🏷️
标签
➡️