小红花·文摘

本研究提出了VisualWebInstruct方法，通过网络搜索创建了一个多模态指令数据集，涵盖数学、物理、金融等多个学科。利用30,000张种子图像，构建了约90万对问答对，其中40%为视觉问答对。经过微调的模型在复杂推理任务中表现显著提升，证明该数据集有效提升了视觉语言模型的推理能力。