小红花·文摘

研究了从多模态源中自动生成问题的新问题，并提出了名为MultiQG-TI的解决方案。MultiQG-TI利用图像到文本模型和光学字符识别模型，能够处理视觉输入，并在ScienceQA数据集上表现出优势。实验证实了视觉和文本信号对问题生成的必要性。