本研究提出了VisualWebInstruct方法,通过网络搜索创建了一个多模态指令数据集,涵盖数学、物理、金融等多个学科。利用30,000张种子图像,构建了约90万对问答对,其中40%为视觉问答对。经过微调的模型在复杂推理任务中表现显著提升,证明该数据集有效提升了视觉语言模型的推理能力。
完成下面两步后,将自动完成登录并继续当前操作。