本文提出了一种新方法,通过多模态模型提取语义名词并生成实体级分割,结合多模态特征融合模块,提高了细粒度预测的效率和准确性。实验结果显示,该方法在全景叙事连接、指称表达分割和全景分割任务中表现优越。此外,研究展示了基于多模态知识图谱的推理方法,显著提升了大型语言模型在多模态推理中的能力。
完成下面两步后,将自动完成登录并继续当前操作。