小红花·文摘

本文提出了一种新方法，通过多模态模型密集连接视觉实体，利用无类别分割生成实体级分割，并通过特征融合提高细粒度预测效率。研究表明，该方法在全景叙事连接、指称表达分割和全景分割任务中表现优越。同时，探讨了大型语言模型在图像生成中的应用，提出高效训练流程以提升生成质量，并分析了多模态模型的能力与特点。