本研究提出了一个包含310K多图像多轮对话的数据集MMCR,解决了视觉语言模型在多轮对话中的数据不足问题。微调后的模型在上下文准确性上提高了5.2%,显著增强了多模态交互效果。
本研究针对现有视觉语言模型在科学论文跨源推理能力的不足,提出了一个名为MMCR的高难度基准,旨在评估其在处理科学论文中来自不同信息源的推理能力。实验结果显示,现有模型在这一任务上表现不佳,最高模型仅获得48.55%的准确率,这表明开发能够有效利用跨源信息进行推理的视觉语言模型的迫切需求。
完成下面两步后,将自动完成登录并继续当前操作。