小红花·文摘

通过多模态大语言模型和多个视觉专家模型的结合，提出了图像文本化框架，将视觉信息转化为文本，生成高质量的图像描述。经过综合评估验证，该框架提高了模型生成更丰富图像描述的能力。